Rosette と検索ベース・アプリケーション
アジア、ヨーロッパ、中東言語の検索用に – 高精度なテキスト解析
全文検索の必要性はあらゆるところに存在します。インターネット、オフィス、家庭用コンピューター、携帯機器など、日常的に検索エンジンが使用されています。これらの製品により簡単に情報を取り出せるようになりましたが、内部で使われているテクノロジーは簡単ではありません。検索エンジンの内部には、「計算言語学」とよばれる高度なアルゴリズムが採用されています。このソフトウェアは、デジタル・テキストを解析して、即座に保管および検索を可能にします。
1998年以来、最も広く使用されているインターネット検索エンジンおよびエンタープライズ・サーチ・エンジンは、弊社のRosette® を採用し、分節処理、基本形化、複合語分解、品詞タグ付け、文境界検出、名詞句抽出など、基本的な自然文の解析を行なっています。弊社のお客様は、これらの機能をベースに製品開発を行い、それぞれの市場をリードしています。
Rosette ソリューション
Rosette は、さまざまなアルゴリズムを使用し、各言語の要件に合わせて最適なアプローチを採用できるように設計されています。言語に応じて、語彙データ、ヒューリスティック規則、統計モデルなどを組み合わせて実装し、あらゆるアプリケーションで高精度かつ高速処理を実現します。
新機能
Rosetteは、特定の言語内で検索するか、複数言語にまたがって検索するかを問わず、市販されている製品の中で最も高度な機能を搭載しています。主な基本機能は:
- 言語判別。文書およびメッセージを言語および文字コードで分類します。
- 分節処理。句読点などの特殊文字の検出など、入力データ内の固有の語彙トークンの境界を判別します。
- 基本形化。動詞または形容詞の活用形から辞書の基本形を生成します。
- 複合名詞の分解。正確な情報検索を実現するために、複合名詞を構成語に分解します。
- 品詞判別。名詞、動詞、前置詞など、単語の品詞をタグ付けします。
検索拡張機能
- 文境界の検出 – 個々の文の境界を検出します。
- 名詞句抽出 – 単一の表現をなす単語セット (名詞単体を含む) を抽出します。
- ユーザーが定義した停止語を無視できます。
- アプリケーション固有の語彙を含んだ、ユーザー定義辞書のサポート
- 言語の領域検出 – 単一の文書内の複数の言語領域を判別します。個々の言語を適切に処理できます。
- 中国語字体変換モジュール – 中国語テキストを処理して、簡体字と繁体字を変換します。文字の変換だけでなく単語レベルの変換も可能です。
- 日本語表記ゆれ対応モジュール – 日本語の単語の異なる正字法形式を標準形式に正規化します。
ユーザー・アプリケーションでの Rosette
Rosette は、大量の多言語テキストを処理する、あらゆるアプリケーションにとって最適な統合的言語処理プラットフォームです。以下にアプリケーション例を示します。
- エンタープライズ・サーチ・エンジン
- Web 検索テクノロジー
- Apache Lucene および Solr ソリューション
- 情報アクセス・プラットフォーム
- E-ディスカバリーおよびデジタル・フォレンジック
- 文書およびメディア解析
- dtSearch ソリューション
- E メールおよびインスタント・メッセージング
Rosette コンポーネント
Rosette は、上述した各種言語処理機能を実現する単一の API です。検索ソリューションでは主に次の Rosette コンポーネントを使用します。
システムの仕様
Rosette は、移植性および拡張性の高い SDK(Software Developer Kit)製品で、ラップトップ PC から、1 秒間に何千もの文書を処理するようなマルチ CPU サーバーに至るまで、あらゆるプラットフォームで稼働します。
充実した API を提供していますので、C、C++、Java などの言語で作成したアプリケーションから API にアクセスして使用できます。簡単な使い方を知っていただくために、コマンド・ライン・インターフェースも用意しています。
Windows、Mac、Unix、および複数の Linux ディストリビューション用のものを用意しています。
- シンプルなAPI
- 高い拡張性と処理能力
- 強力なサポート
- 簡単なインストール
- 柔軟でカスタマイズ可能
- Java、C++、ウェブサービスAPI
- プラットフォーム:Unix、Linux、Mac、Windows、Solaris
- Rosette SDKのコンポーネント
- シンプルなAPI
- 高い拡張性と処理能力
- 強力なサポート
- 簡単なインストール
- 柔軟でカスタマイズ可能
- Java、C++、ウェブサービスAPI
- プラットフォーム:Unix、Linux、Mac、Windows、Solaris
- Rosette SDKのコンポーネント
- ユーザー辞書、表記ゆれ辞書、中国語簡体字⇔中国語繁体字変換などのカスタマイズ機能