デジタル・フォレンジックにおける自然言語処理

大量な文書の要点を迅速に把握

復元・収集した文書、メールなどの膨大なテキストデータを解析し、人名、地名、組織名などを種別毎にハイライトするとともに、トピックやキーフレーズを自動抽出することにより、文書の要点の把握、関連性を迅速に把握できます。

ウォッチリストの自動照合

  • 復元・収集した文書、メールなどに記載されている人名と組織名を自動的に抽出し、ウォッチリストと照合し、注目すべき箇所をハイライトします。
  • ウオッチリストとテキストの言語が異なっても照合することが出来るので、海外の人物・組織との関連性も捕捉できます。

インテリジェントなキーワード検索

あいまい検索や類語対応により、検出漏れを削減します。また、検索対象項目の重み付けを変えるなどして、検索適合性を改善し求めている結果を効率良く得ることができます。

類似した表現・単語の探索

収集した文書や単語をセマンティック空間上の多次元ベクトル値に変換し、意味が類似した表現や単語が用いられている箇所を特定できます。他の言語で表現された文書や単語についても類似検索が可能です。

多言語テキストへの柔軟な対応

収集した文書に外国語のものが含まれていても、高品質な言語解析により、柔軟なソリューションを提供できます。

豊富な機能を持つテキスト解析プラットフォーム

  • Base Linguistics (基本言語解析): トークン化、品詞分類、基本形化などの形態素解析機能。35言語に対応。
  • Entity Extractor and Linker (エンティティ抽出): 人名、地名、組織名など29タイプのエンティティを抽出。21言語に対応。個別ニーズへのカスタマイズ対応。
  • Relationship Extractor (関係性抽出)抽出したエンティティ(17タイプ)間の関係性を特定。英語のみ対応。
  • Sentiment Analyzer (センチメント分析): 抽出した組織、人、製品など(18タイプ)に対するセンチメントを分析。6言語に対応。
  • Content Categorizer (カテゴリゼーション): コンテンツの自動分類。分類キーワードや教師あり学習による分類で多言語拡張も可能。
  • Language Identifier (言語判別): 56言語、364の言語/文字コードペアを判別。短い文章にも対応。
  • Semantic Similarity (意味的類似性): テキスト間の類似性を計測し、9言語間で類似性のあるテキストを特定。
  • Topic Extractor (トピック抽出): キーワードやコンセプトを抽出。英語のみ対応。

 

Work With Us

弊社は20年以上にわたり、情報機関や国境警備、入国管理機関などに、多言語によるテキスト解析技術を提供してきています。政府機関やシステムインテグレーターを顧客とし、既存のソリューションにあらたな多言語分析能力を提供します。人工知能技術に基づいた弊社のあいまい名称照合技術は多くの政府機関で現在使用されています。

Contact Us