Rosette Entity Extractor & Linker
様々な言語のテキストから、
人名、地名、組織名を自動的に抽出

製品概要
単なる文字列ではないもの
組織、人、場所、製品、日付などのエンティティ(固有表現)は、自由形式のテキストデータの主要な要素です。Rosetteは、こうしたエンティティを見出し、データに構造、明確さ、知見を与えます。Rosetteは適用範囲が広く、デプロイが容易で、幅広い言語やテキストジャンルに対し一貫した正確さとパフォーマンスを提供します。
Rosetteは、パーセプトロン 、サポートベクターマシン、分散表現、深層ニューラルネットワーク、機械学習の手法を統合して、パフォーマンスと正確さのバランスを図っています。
実際のアプリケーション
固有表現抽出は、電子情報開示、ソーシャルメディア解析、金融コンプライアンス、政府インテリジェンスのアプリケーションの基礎です。Rosetteの利用で可能になることは:
- 政府のセキュリティと不正検出のために個人の身元を確認する
- 製品や会社に関する顧客センチメントを追跡する
- 特許法、法的証拠開示、コンプライアンスのためにリサーチを解析する
- オープンソースインテリジェンスの重要な情報を活用する
- コンテンツパブリッシャー向けターゲット検索やレコメンデーションエンジンを提供する
個別のニーズに合わせてカスタマイズ可能
RosetteのEntity Extractor and Linker (エンティティ抽出&参照) は非常に高い適応性を備えています。Basis Technologyのオンプレミスフィールドトレーニングキットを使うと、教師あり学習に加えて、 注釈なしで、手持ちの多量のデータを与えることによって、使用事例に合わせてパーソナライズされた固有表現抽出モデルを作成できます。
この能力により、新聞記事、ブログ、レストランのレビュー、財務文書、カルテ(医療記録)、法的な契約書、特許出願、あるいは、ツイートのような短いテキストの文字列といった、特定のコンテンツタイプに関して、Rosetteの訓練を行うことが可能になります。ユーザーは、医療向け抽出ツール用の疾患名や医薬品名、履歴書を評価するための役職や技能など、Basis Technologyのあらかじめ用意された以外の新しい固有表現タイプも作成できます。
製品の特長
- 20言語以上をサポート
- 29の固有表現タイプと700以上のサブタイプを検出
- 共参照解決によって同じ固有表現の記載を互いに連結
- 文書のコンテキストを使ってナレッジベースに固有表現をリンク
- モデルの融合:ハイブリッドな手法により、各固有表現タイプを正確に抽出
- 対象言語の深層学習モデルで正確さを向上
- 大文字小文字を区別しない英語入力を許可(すべて大文字/すべて小文字)
- それぞれの結果の信頼度スコア
- クラウドまたはエンタープライズデプロイ
- 高速で拡張可能
- 業界最強のサポート
- 絶えずストレステストを行い改善
機能
ハイブリッドアプローチでパフォーマンスと正確さのバランスを図る
抽出される固有表現タイプごとに、最良の結果を引き出すアプローチを選択します。Rosetteは、高度な統計モデリングとニューラルネットワークを組み合わせて、さらに、パターンマッチングと固有表現リストで補完しています。このハイブリッドシステムは、単純なソリューションでは見落とされる固有表現を検出する柔軟性を備えており、精度と再現率を向上させます。
機械学習
統計モデリングは、文字列やパターンの厳格な一致ではなく、文脈に基づいてエンティティを見つけます。このため、高品質のトレーニングデータだけがより優れた結果を生み出します。Rosetteのモデルは、新聞記事、ソーシャルメディアプラットフォーム、ブログ投稿からなる何百もの注意深く精選されたコーパスで訓練されています。Basis Technologyの社内チームが、徹底的にデータに注釈を付け、ネイティブスピーカーによるタグのクロスチェックで一貫性を確保しています。
このような機械学習モデルは、エンティティを見つけるための外部ナレッジベースに依存しないため、外部ソースだけを頼りにエンティティを抽出するシステムよりも、誤検出の発生頻度が少なくなります。Rosetteは、どのデータベースにも出現しない新しいエンティティも検出します。
リスト
自作の抽出ツールや実験的な抽出ツールとは異なり、Basis Technologyのカスタムエンティティリスト(ガゼティア)は、定期的に更新を行い、ストレステストにかけることで、エンタープライズレベルの速度とパフォーマンスを実現しています。幅広い業界と政府機関のお客様のもとで、Rosette Entity Extractor and Linker は、高いパフォーマンスで数百万ものエントリーのガゼティアに対応できます。
オンプレミスのお客様は、データ内で見つかると期待される特定の単語や語句を把握していればガゼティアを追加できます。たとえば、衣料メーカーは、ツイートから抽出したいと考えるベーシックカラーのリストを追加できます。
また、Rosetteは、ウィキペディアやDBペディアなどの固有表現データベースで事前訓練されており、エンティティの抽出とリンクを同時に実行します。この手法は、ツイートやキャプションなどの非常に短い文字列の処理において特に力を発揮します。
パターンマッチング
正規表現として示されるルールは、日付、時刻、メールアドレスなどのパターンに従ったエンティティを抽出します。多くの標準の文字列パターンが、Basis TechnologyのEntity Extractor に事前に組み込まれています。オンプレミスのお客様は、お客様独自のニーズに基づいてルールを編集したり、追加したりして、抽出ワークフローを簡単にカスタマイズできます。
現場でのカスタマイズ
さらなる精度が求められる用途や、ドメイン固有のエンティティタイプのために、オンプレミスデプロイ用のカスタマイズツールとサービスを提供しています。以下のようにして、Rosetteに、新しいエンティティタイプを追加したり、結果の精度を向上させることができます。
- エンティティリストの追加/編集
- パターンマッチング用の正規表現の追加/編集
- 統計モデルの再訓練
- データとドメインの正確さを向上するための教師なし訓練(注釈なしデータを使用)
- 正確さを向上、または新しい固有表現タイプを追加するための教師あり訓練(注釈つきデータを使用)
共参照解決
このプロセスによって、同一文書内で、実世界の同じエンティティを表す記載が連結されます。
タイプ |
例 |
---|---|
名前の固有表現 | ドナ・ストリックランド教授はカナダ人医師です。ストリックランド教授は、2018年にノーベル物理学賞を受賞しました |
代名詞 | ドナ・ストリックランド教授はカナダ人医師です。彼女は、2018年にノーベル物理学賞を受賞しました |
肩書き、呼称 | ドナ・ストリックランド教授はカナダ人医師です。教授は、2018年にノーベル物理学賞を受賞しました |
スペック
ご利用可能なプラットフォームなど
提供形態: | |
プラグイン: | |
プログラミング: |
対応言語
アラビア語 | フランス語 | 日本語 | ポルトガル語 | |
中国語(簡体字) | ドイツ語 | 韓国語 | ロシア語 | |
中国語(繁体字) | ヘブライ語 | マレー語 | スペイン語 | |
オランダ語 | インドネシア語 | パシュトゥ語 | ウルドゥー語 | |
英語 | イタリア語 | ペルシャ語 | ヴェトナム語 | |
ハンガリー語 | タガログ語 | インドネシア語 |
固有表現タイプ
人名 | 国籍 | 番号 | 距離 | |
地名 | 宗教 | 個人認識番号 | 日付 | |
組織名 | 通貨 | 電話番号 | 時間 | |
製品名 | クレジットカード番号 | Eメールアドレス | 地理座標 | |
称号 | URL | 行動 | 身体内部位 | |
病名 | イベント | 食品名 | 計測値 | |
言語 | 種別 | 物質 | 交通手段 | |
その他 |
上記の固有表現タイプに加えて、Rosetteは 450以上の固有表現サブタイプを認識し、ウィキデータQIDとDBペディアの解析ツリーが利用可能であれば、これとリンクさせます。
例:
「イブプロフェン」は、「物質」としてタグ付けされ、ウィキデータIDQ186969と連携され、DBペディアツリー「ChemicalSubstance/Drug」に割り当てられます。ChemicalSubstance/Drug”.
Online Demo
1) デモ画面の下に用意されたサンプルテキストを選択、またはテキスト(1万文字以内)を画面上に入力。
2) 画面右下の赤い “Analyze” ボタンをクリック。
3) 画面右側の “Entities” タブをクリックすると、テキストに含まれるエンティティの一覧が表示されます。
4) エンティティをクリックすると、詳細が表示されます。
Cloud
Easy to use
Built for the most demanding text analytics applications and engineered to deliver high accuracy without sacrificing speed, Rosette Cloud is instantly accessible and offers a variety of plans to suit both startups and enterprises.
Try name translation and the rest of Rosette Cloud’s endpoints for signup today for a 30-day free trial!
Quality documentation and support
Customers love our thorough and responsive support team. We also provide in-depth documentation that lists all the features and functions of the various Rosette Cloud endpoints along-side examples in the binding of your choice.
Visit our GitHub for the binding and documentation.
Enterprise ready
Evaluate Rosette’s functional fit with your business and data needs on Rosette Cloud knowing that scalable, customizable, enterprise deployments are available if you need them.
{ "translation": "Mu'ammar Muhammad Abu-Minyar al-Qadhaf", "targetLanguage": "eng", "targetScript": "Latn", "targetScheme": "IC", "confidence": 0.06856099342585828 }
Enterprise
ニーズに合わせたカスタマイズが可能
Docker コンテナなどでローカルにインストールでき、オンプレミス環境下でWeb API またはSDK でご利用でいただけます。
膨大なデータ量を抱え、独自の統合ニーズを持ちながらもデータセキュリティに制約のある組織向けに、社内サーバー上にホストされる Rosette Enterprise をご用意しております。
弊社製品に関するお問い合わせおよび Enterprise版のご利用をご希望の方は、下記のフォームに必要事項をご記入のうえ、お気軽にご相談ください。
連絡
EMAIL:
info@basistech.jp
電話:
03-3551-2947