Eディスカバリーに於けるデータコレクション

5月20日のブログでは、訴訟やコンプライアンス調査が予想された際に最初に対処する「訴訟ホールド」についてお話しました。今回は訴訟ホールドの後のプロセスである「データコレクション」についてお話したいと思います。
関連した電子保存情報にホールドをかけ、改ざんや削除が出来ないようにするわけですが、もし訴訟や監査に発展するようであれば本格的なEディスカバリーを行わなければなりません。
そのEディスカバリーの最初のプロセスとして関連データを収集、つまりコレクションをする作業があります。最も簡単にコレクション出来るデータはコンピュータ端末のハードドライブにある電子メール、ワードやスプレッドシートなどのドキュメント類です。これらは比較的簡単にアクセスをしてコレクションする事が出来ます。
次にアーカイブされたドキュメント類のコレクションがあります。アーカイブされたドキュメントやファイルは圧縮フォーマットに変更されて、バックアップテープ、ディスク、オプティカルメディアなどのオフラインのデバイスに通常保管されています。これらのアーカイブされたドキュメントをコレクションする時はファイル構成を理解しなければならず、またメディアによってはアクセスに時間がかかる場合もあります。古いバックアップフォーマットであったりテープがきちんと管理出来ていない状況であったとすれば、より複雑な作業となりコストが掛かる作業となってしまいます。
また複数のバックアップが構成されている場合には同一文書を複数拾ってしまう事になり後にDe-Duplicationという複数の同一文章を削除しなければならない問題も発生してしまいます。
そして最も複雑でコストが掛かってしまうのが、ドキュメントやファイルが消去、断片化またダメージを受けている場合です。エキスパートによる特別なツールでデータを修復するフォレンジック作業は最も複雑で時間がかかるプロセスです。
電子データを多く取り扱う企業にとって最も大きな課題となるのが、テラバイトまたペタバイトという膨大なデータが、電子メールシステム、ファイルシェア、デスクトップPCやノートブックPCなどに分散して存在しているという現実です。通常はカストディアンがアクセス出来る様々なストレージからJPGやDOCなどのファイルタイプや期日を絞ってコレクションを行いますが、複数の同一文書、システムファイルや無関連なドメインからのメールなども含まれてしまいます。
この膨大で分散しているデータから関連電子情報のみを発見し、内容の確認をし、これらをカテゴリーごとに整理しておく必要があります。
コレクションしたデータは弁護士チームが後々レビューをする事になりますので、関連の無いデータや重複した文章をなるべく効率的に排除(Culling)しておかなければ関連のないデータや文章に目を通す事となり生産性が下がると共にレビューコストが莫大なものになってしまいます。
日本企業もEディスカバリーに対しては「訴訟が無いから必要が無い」という考えではなく、重要な電子データやドキュメントをきちんとアーカイブ管理し、コレクションの必要がある時には効率的にそれが行えるようなビジネスプロセスとして認識しておく必要があるでしょう。