固有表現抽出モジュール


様々な言語のテキストから、
人名、地名、組織名を自動的に抽出

製品概要

大量のテキストデータから 固有表現を速やかに抽出

ビッグデータと呼ばれているものの大半はテキストデータです。 テキストには重要な情報が含まれていますが、いちいち人間が調べなければ、なかなかその情報は得られません。データが外国語の場合は更に難しい作業となります。重要な情報は、人名、地名、日付などの、いわゆる固有表現に関連していることが多く、それらを調べることでデータの概要を把握することができます。

Rosette 固有表現抽出モジュール(REX)は、大量の多言語テキストを素早く読み込んで該当するデータをタグ付けします。 REXは、高度な統計モデリング、カスタマイズ可能なルール、あらかじめ定義されたリスト等を駆使し、正確に固有表現を抽出します。

言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの改善を絶えず続けています。

製品の特長

  • 20言語をサポート
  • 18 種類のエンティティを検出
  • Rosette SDKのコンポーネント
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows

機能

強力なハイブリッドソリューション

高度な統計モデリング、カスタマイズ可能なルール、あらかじめ定義されたリスト等を駆使し、正確に固有表現を抽出します。

統計的モデリング

REX Machine Learning

言語解析に基づく高度な統計モデリングは、次に示すようなケースの処理に有効です。

  • 人名、地名、組織名などに、共通の名前が使われている場合。例えば、一般的な姓であるSmithは、会社名のSmith & Co.や都市名のSmithfield, RIから区別する必要があります。
  • 膨大なフォーマットや異表記のある名前。

これらを正しく処理して、人名、地名、組織名などの固有表現を抽出するには、統計エンジンは欠かせません。統計エンジンは、ウェブ上にある膨大な数のニュースやブログ記事の分析、注釈付け、および処理を行い、実際の文脈に応じて、機械学習によってトレーニングされています。

パターンマッチング

REX Rules

日付、時間、メールアドレスなどは、正規表現を用いたルールを適用して抽出することができます。正規表現には、多くの文字列のパターンが含まれています。特定のニーズに基づき、ユーザーが独自に編集または追加することもできます。

リスト

REX Lists

固有表現は、標準リストおよびユーザー分類に従って抽出します。例えば、製品名はリストベースで抽出します。またガゼティアと呼ばれる膨大なリストを標準装備しています。アーティスト名など、ユーザー定義のリストも簡単に追加できます。

スペック

ご利用可能なプラットフォームなど

提供形態:
プラグイン:
プログラミング:

対応言語

アラビア語 フランス語 日本語 ポルトガル語
中国語(簡体字) ドイツ語 韓国語 ロシア語
中国語(繁体字) ヘブライ語 マレー語 スペイン語
オランダ語 インドネシア語 パシュトゥ語 ウルドゥー語
英語 イタリア語 ペルシャ語 ヴェトナム語

固有表現タイプ

人名 国籍 番号 距離
地名 宗教 個人認識番号 日付
組織名 通貨 電話番号 時間
製品名 クレジットカード番号 Eメールアドレス 地理座標
称号 URL

Demo

お問い合わせ

お問い合わせ

弊社製品に関するお問い合わせおよび製品評価版のご利用をご希望の方は、こちらのフォームよりお問い合わせください。

製品評価版をご希望の際は、ご使用のOSおよび開発言語の種類を必ずご記載ください。

EMAIL:
info@basistech.jp

電話:
03-3551-2947

本モジュール利用顧客