製品
ホーム»製品»言語処理プラットフォーム» 固有表現抽出システム (キーワード抽出ツール)

対応プラットフォーム

Windows, Linux, Solaris, AIX, HPUX, MacOS 等

Rosette 固有表現抽出システム(キーワード抽出ツール)

収集した情報の概要を瞬時に把握し、敏速に処理特定の 地域 ・人物 ・企業などの情報を抽出

Rosette® 固有表現抽出システム (REX: Rosette Entity Extractor) は、高度な言語学技術を駆使した、キーワードを検出および抽出するシステムです。Eメール、文書ファイル、あるいはインターネット経由で入手される、大量のデータを処理するシステムにおいて、人名、地名、メールアドレス、URLなど、特定の単語やフレーズ(句)などの固有表現の抽出ができ、効率よいテキスト処理ができます。

REX は、抽出すべき語の「文脈パターン」を事前学習させて抽出させるシステムで、情報検索、CRM、ビジネスインテリジェンスなどのアプリケーションに使用されます。REX の言語モデルに、そのパターンが既に組み込まれているので、ユーザーによるプログラミングや学習の必要はありません。

抽出できる語句(例)は以下のとおりです。

REX Japanese Sample

固有名詞

抽出すべき語の「文脈パターン」を事前学習し、抽出。人名、地名、組織名を識別。

特定パターンの語句

与えられた正規表現と一致するパターンの文字列を抽出。 ※ ユーザー定義のパターン抽出も可能。

日時、電話番号、URL、Eメールアドレス、クレジットカード番号、通貨など。

用語辞書(ガゼティア)

ユーザーが指定した語句と一致したものを抽出。

REX Japanese Sample

応用例

情報検索、テキストマイニング、デジタル・フォレンジックをはじめ、コンピューターを利用した犯罪調査、および防衛・諜報分野やその他多くのソフトウェアシステムに、より高度なキーワード抽出を可能にします。

特長

  • ユーザーによるトレーニングあるいはルール作成は不要
  • 内部アーキテクチャに Unicode を採用し、多言語対応
  • スレッドセーフ
  • 高性能

仕様

  • ISO/ANSI C++ ポータブルサブセットによる実装
  • スタティックあるいはダイナミック ライブラリ
  • 内部アーキテクチャに Unicode 採用
  • 辞書をメモリーにマップし、必要なメモリー量を小さく抑え、早い起動を実現

日本語版のほか、以下の言語対応版も用意しております。

朝鮮語、中国語、アラビア語、チェコ語、オランダ語、英語、近代ペルシア語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、ポーランド語、ポルトガル語、パシュトゥ語、ロシア語、スペイン語、ダリ語、ウルドゥ語

お問い合わせ

Error

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

「* 印の項目は必ず入力してください」