言語を超えた E-Discovery (電子情報開示)

グローバル化の時代、さまざまな国で言語を問わずに作成されるドキュメントの存在は、法律上の調査においても決して無視することができません。 裁判において弁護団は、母国語以外で書かれた膨大な量のドキュメントをフィルタリング、調査、分析しなければならないことがしばしばあります。

多言語対応電子情報開示の重要性の高まりは、弁護士およびその技術担当者にとって新しい課題となります。E-Discoveryはただでさえ複雑ですが、異なった言語は、表記方法、文字コードを含む場合、その複雑性が増大します。しかし、可能な限り最善の結果をクライアントに提供するためには、きめ の細かい調査が極めて重要です。

先端リーガル・テクノロジー

Basis Technologyは、関係者が直面する多言語対応電子情報開示の課題解決を支援します。テラバイト単位の非構造化多言語テキストに埋もれた証拠を、 正確かつ迅速、コスト効率よく明らかにする総合的なE-Discovery製品向けのツールです。業界最先端の多言語対応検索エンジンと、情報検索アプリケーションの中核をなす、業界トップクラスの言語学ソフトウェアを使用しています。

弊社の多言語対応 E-Discovery 製品向けツールは、すでに多数の企業および政府機関にてその性能が立証されているRosette® 言語処理プラットフォームを基盤としています。 相互利用可能なRosette言語処理プラットフォームは、多言語対応 E-Discovery製品の構成要素として利用され、さまざまな言語および文字コードやデータソースを扱う際、電子情報開示・ワークフローと情報検索アプリケーションにおいてスムーズに稼動します。

電子情報開示アプリケーションの多言語化

Basis Technology が誇る言語処理ソフトウェアは、データマイニング、レビュー、検索および弁護団が使用するその他の電子情報開示アプリケーションを容易に一体化することが可能です。Rosette APIをアプリケーションに導入することにより、アジア、ヨーロッパ、中東の主な言語をカバーする独自のE-Discovery 製品にて即時ご利用いただけます。 圧倒的な正確さと効率性を兼ね備えた多言語テキスト分析を可能にする、専門家にとっては欠かすことのできないツールとなるでしょう。

利点

  • テラバイト単位の多言語テキストの中に埋もれた証拠を見つけ出す
  • 言語の壁のない電子情報開示
  • 関連する多言語ドキュメントを作成
  • アジア、ヨーロッパ、中東を含む、55以上の言語をサポート

多言語対応E-Discoveryへの3つのステップ

Step1:言語および文字コードを判別し、Unicodeに変換コンポーネント:Rosette® 言語判別モジュール(RLI)Rosette® Unicode対応ライブラリ(RCLU)

ドキュメントの言語および文字コードを判別し、コンテンツを選別・処理します。また、Unicodeに変換することにより、言語に関わらず、 ディスカバリーと情報検索アプリケーションでの単一データソースへのアクセスを可能にします。

Rosette言語判別モジュールは、短い文字列であっても、55種類の言語をすばやく正確に判別するため、その後アプリケーションにおける言語別の処理が効率的におこなえます。 また、あらかじめ組み込まれたプロファイルと入力テキストを比較して判別するという統計学的な手法を用いているため辞書データを必要とせず、メモリ消費が少なく膨大な量のテキストデータにおいても、多種類の言語・文字コードをすばやく判別することができます。

Rosette Unicode対応ライブラリは、多言語対応の際、文字コードが異なるデータを世界共通のUnicodeへ変換、あるいはその逆をおこなうことにより、どのような文字コードのテキストデータも適切に処理をすることができます。 160種類以上の文字コードに対応しています。 また、日本語においては文字列の変換機能も有しています。

Step2:語形、品詞および構造などを判別するために言語学インテリジェンスを応用コンポーネント:Rosette® 基本言語解析モジュール(RBL)

Rosette 基本言語解析モジュール(分かち書きツール)は、テキストを正確にフィルタリング、分析、検索するために、ドキュメントを分析し、完全な形態素解析を実行します。 アジア、ヨーロッパ、中東の主要言語で書かれた、ドキュメント内の品詞、文の区切り、単語の切れ目、トークンおよびその他の言語コンポーネントを判別します。RBLの技術と言語データは、ウェブやエンタープライズ・サーチエンジンの分野において、長年の開発・使用実績があります。

Step3:キーワード抽出 コンポーネント:Rosette® 固有表現抽出モジュール(REX)

Rosette 固有表現抽出モジュールは、非構造化テキストから、人名、地名、日付やその他のキーワードを抽出し、詳細な分析を可能にします。特 定の名前や電話番号、Eメールアドレスのように、ユーザーが指定する固有表現も同様に抽出が可能です。統計的モデルの使用により、ドキュメント内に固有表現 が存在するかどうかを決定する支援をおこないます。そのため、ユーザーが認識していないキーワードでも検出を可能にするのが固有表現抽出の技術です。

システム仕様


Rosetteは、ポータブルで非常に拡張性の高いソフトウェア開発キット(SDK)です。ラップトップPCからマルチCPUサーバーまで毎秒数千ものドキュメントを処理するプラットフォームで稼動します。

ドキュメントが完備したAPIは、C、C++、Java、その他の言語で書かれたアプリケーションからアクセスできます。コマンドラインを使ったテストも可能です。

Unix、Linux、Mac、Windows。