Rosette と検索ベース・アプリケーション

アジア、ヨーロッパ、中東言語の検索用に – 高精度なテキスト解析

全文検索の必要性はあらゆるところに存在します。インターネット、オフィス、家庭用コンピューター、携帯機器など、日常的に検索エンジンが使用されています。これらの製品により簡単に情報を取り出せるようになりましたが、内部で使われているテクノロジーは簡単ではありません。検索エンジンの内部には、「計算言語学」とよばれる高度なアルゴリズムが採用されています。このソフトウェアは、デジタル・テキストを解析して、即座に保管および検索を可能にします。

1998年以来、最も広く使用されているインターネット検索エンジンおよびエンタープライズ・サーチ・エンジンは、弊社のRosette® を採用し、分節処理、基本形化、複合語分解、品詞タグ付け、文境界検出、名詞句抽出など、基本的な自然文の解析を行なっています。弊社のお客様は、これらの機能をベースに製品開発を行い、それぞれの市場をリードしています。

「中国語、日本語、朝鮮語の究極の検索エンジンを実現するために、Google はアジア言語処理の部分にベイシス・テクノロジー製品を選びました。これは Google が世界中のユーザーから選ばれる検索エンジンとして、不動の地位を確立する上で大きく貢献しました。」Googleフェロー兼副社長、Urs Hölzle 様

Rosette ソリューション

Rosette は、さまざまなアルゴリズムを使用し、各言語の要件に合わせて最適なアプローチを採用できるように設計されています。言語に応じて、語彙データ、ヒューリスティック規則、統計モデルなどを組み合わせて実装し、あらゆるアプリケーションで高精度かつ高速処理を実現します。

Rosette Segmentation, POS, and BNP Sample

新機能

Rosetteは、特定の言語内で検索するか、複数言語にまたがって検索するかを問わず、市販されている製品の中で最も高度な機能を搭載しています。主な基本機能は:

  • 言語判別。文書およびメッセージを言語および文字コードで分類します。
  • 分節処理。句読点などの特殊文字の検出など、入力データ内の固有の語彙トークンの境界を判別します。
  • 基本形化。動詞または形容詞の活用形から辞書の基本形を生成します。
  • 複合名詞の分解。正確な情報検索を実現するために、複合名詞を構成語に分解します。
  • 品詞判別。名詞、動詞、前置詞など、単語の品詞をタグ付けします。

検索拡張機能

  • 文境界の検出 – 個々の文の境界を検出します。
  • 名詞句抽出 – 単一の表現をなす単語セット (名詞単体を含む) を抽出します。
  • ユーザーが定義した停止語を無視できます。
  • アプリケーション固有の語彙を含んだ、ユーザー定義辞書のサポート
  • 言語の領域検出 – 単一の文書内の複数の言語領域を判別します。個々の言語を適切に処理できます。
  • 中国語字体変換モジュール – 中国語テキストを処理して、簡体字と繁体字を変換します。文字の変換だけでなく単語レベルの変換も可能です。
  • 日本語表記ゆれ対応モジュール – 日本語の単語の異なる正字法形式を標準形式に正規化します。

ユーザー・アプリケーションでの Rosette

Rosette は、大量の多言語テキストを処理する、あらゆるアプリケーションにとって最適な統合的言語処理プラットフォームです。以下にアプリケーション例を示します。

  • エンタープライズ・サーチ・エンジン
  • Web 検索テクノロジー
  • Apache Lucene および Solr ソリューション
  • 情報アクセス・プラットフォーム
  • E-ディスカバリーおよびデジタル・フォレンジック
  • 文書およびメディア解析
  • dtSearch ソリューション
  • E メールおよびインスタント・メッセージング

Rosette コンポーネント

Rosette は、上述した各種言語処理機能を実現する単一の API です。検索ソリューションでは主に次の Rosette コンポーネントを使用します。

システムの仕様

Rosette は、移植性および拡張性の高い SDK(Software Developer Kit)製品で、ラップトップ PC から、1 秒間に何千もの文書を処理するようなマルチ CPU サーバーに至るまで、あらゆるプラットフォームで稼働します。

充実した API を提供していますので、C、C++、Java などの言語で作成したアプリケーションから API にアクセスして使用できます。簡単な使い方を知っていただくために、コマンド・ライン・インターフェースも用意しています。

Windows、Mac、Unix、および複数の Linux ディストリビューション用のものを用意しています。

 

  •  シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows、Solaris
  • Rosette SDKのコンポーネント

 

  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows、Solaris
  • Rosette SDKのコンポーネント
  • ユーザー辞書、表記ゆれ辞書、中国語簡体字⇔中国語繁体字変換などのカスタマイズ機能

 

  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows、Solaris
  • Rosette SDKのコンポーネント