テキスト解析でSolr™を強化


Apache Solrは、多くの革新的な検索ベースアプリケーションの心臓部です。Rosetteは、開発者が単純な検索を超える機能を提供しようとしたときに直面するさまざまな課題を解決します。
Rosette基本言語解析モジュールは、中国語、日本語、朝鮮語の高度なトークン化機能に加えて、朝鮮語、ドイツ語、オランダ語などの言語に対応した複合語分解機能も備えています。また、単語の語形変化の正規化機能として、ステミングではなく基本形化を提供します。こうした各種機能を組み合わせた言語処理により、40言語において検索の再現率と適合率を向上させます。

 

現実世界のエンティティでのファセット

Rosetteの固有表現抽出モジュールとリンク付け機能により、人名、地名、組織名、製品名、その他13種類の固有表現タイプを抽出して、現実のエンティティに関連付けることができ、高品質のファセット検索を実現できます。Rosetteは、統計的モデル、ガゼティア(用語辞書)、正規表現を組み合わせて固有表現を抽出し、その固有表現をウィキペディアやカスタムエンティティデータベースにリンクさせることができます。18言語に対応し、事前学習を行った状態で提供されます。ドメイン固有のコンテンツに合うようにご使用の環境で調整して精度を向上させることも可能です。

 

どのように書かれていても名称を検出

多くの場合、名称はクエリーの中で最も重要な言葉です。Rosetteは、スペルミス、ニックネーム、スペースの欠落、別の言語で記載された同一の名称、その他の表記揺れに対処しているので、ひとつの名称のたくさんの変化形を確実に見つけ出し、検索の再現率を向上させます。Rosetteは、英語、アラビア語、ロシア語、日本語、中国語、朝鮮語をはじめとする15言語で記述された名称を照合します。

 

不正防止と金融コンプライアンス

多くの不正防止および金融コンプライアンス・プロセスで、身元確認のための名前の照合は重要なタスクです。多くの企業が海外の顧客や支社を抱えていますが、こうした企業が既知のテロリストや犯罪者と取引しないようにすることは、見かけほど簡単ではありません。
Rosetteのあいまい名称照合機能を利用することで、名前のさまざまな表記(ニックネーム、ミススペル、同音名)や異なる言語間での一致を検出できるようになります。
また、Rosetteは、初めての名前、区切りがいろいろの名前(「MaryEllen」と「Mary Ellen」)にも対処できます。そのため、既知の名前のリストから生成された名前のバリエーションを使ってあいまい検索を行うシステムよりも優れています。

 

オープンソース・インテリジェンス (OSINT)

Rosetteは、人名、地名、組織名などの新規または既知の固有表現を抽出することで、ソーシャルメディア、ニュース、ブログから取得した膨大なテキストを構造化できます。こうした固有表現は、パターンやトレンドを可視化したり、固有表現と文書の間にリンクを生成するといったアプリケーションで利用することができます。
また、Rosetteは、こうした名称を標準化したり、翻訳したり、確実な情報に関係付けることで、現実世界のデータが不整合で取扱いにくいという問題を軽減します。