固有表現抽出モジュール


diagram-REX-hero

大量のテキストデータから
固有表現を速やかに抽出

ビッグデータと呼ばれているものの大半はテキストデータです。 テキストには重要な情報が含まれていますが、いちいち人間が調べなければ、なかなかその情報は得られません。データが外国語の場合は更に難しい作業となります。重要な情報は、人名、地名、日付などの、いわゆる固有表現に関連していることが多く、それらを調べることでデータの概要を把握することができます。

Rosette 固有表現抽出モジュール(REX)は、大量の多言語テキストを素早く読み込んで該当するデータをタグ付けします。 REXは、高度な統計モデリング、カスタマイズ可能なルール、あらかじめ定義されたリスト等を駆使し、正確に固有表現を抽出します。

言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの改善を絶えず続けています。

情報解析

主な機能

  • Rosette SDKのコンポーネント
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows

機能

 機械学習

REX Machine Learning

言語解析に基づく高度な統計モデリングは、次に示すようなケースの処理に有効です。

  1. 人名、地名、組織名などに、共通の名前が使われている場合。例えば、一般的な姓であるSmithは、会社名のSmith & Co.や都市名のSmithfield, RIから区別する必要があります。
  2. 膨大なフォーマットや異表記のある名前。

これらを正しく処理して、人名、地名、組織名などの固有表現を抽出するには、統計エンジンは欠かせません。統計エンジンは、ウェブ上にある膨大な数のニュースやブログ記事の分析、注釈付け、および処理を行い、実際の文脈に応じて、機械学習によってトレーニングされています。

リスト

REX Lists

固有表現は、標準リストおよびユーザー分類に従って抽出します。例えば、製品名はリストベースで抽出します。またガゼティアと呼ばれる膨大なリストを標準装備しています。アーティスト名など、ユーザー定義のリストも簡単に追加できます。

 正規表現

REX Rules

日付、時間、メールアドレスなどは、正規表現を用いたルールを適用して抽出することができます。正規表現には、多くの文字列のパターンが含まれています。特定のニーズに基づき、ユーザーが独自に編集または追加することもできます。

固有表現タイプ

REXは、次の固有表現タイプを標準でサポートしています。ユーザー定義の固有表現(SKU番号等)も利用できます

  • 人名
  • 地名
  • 組織名
  • 称号
  • 国籍
  • 宗教
  • 製品
  • クレジットカード番号
  • 地理座標
  • 通貨
  • 総称数
  • 個人識別番号
  • 電話番号
  • Eメールアドレス/URL
  • 距離
  • 日付
  • 時間
  • 17

    言語に対応

  • 日本語
  • 朝鮮語
  • 中国語(簡体)
  • 中国語(繁体)
  • オランダ語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • ポルトガル語
  • ロシア語
  • スペイン語
  • インドネシア語
  • アラビア語
  • ヘブライ語
  • パシュトウ語
  • ペルシャ語
  • ウルドゥ語
コードベース
C++
Web Services
Java
Microsoft .Net
プラットフォーム
Windows
Linux
Red Hat
Mac

REXの出力例

diagram-REX-example_web-01

Demo ビデオ (英語)

主な顧客


お問合せフォーム

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。
但し、個人の方からのお問い合わせには、ご対応いたしかねます。ご了承ください。

This is a unique website which will require a more modern browser to work! Please upgrade today!