全文検索の必要性はあらゆるところに存在します。インターネット、オフィス、家庭用コンピューター、携帯機器など、日常的に検索エンジンが使用されています。これらの製品により簡単に情報を取り出せるようになりましたが、内部で使われているテクノロジーは簡単ではありません。検索エンジンの内部には、「計算言語学」とよばれる高度なアルゴリズムが採用されています。このソフトウェアは、デジタル・テキストを解析して、即座に保管および検索を可能にします。
1998年以来、最も広く使用されているインターネット検索エンジンおよびエンタープライズ・サーチ・エンジンは、弊社のRosette® を採用し、分節処理、基本形化、複合語分解、品詞タグ付け、文境界検出、名詞句抽出など、基本的な自然文の解析を行なっています。弊社のお客様は、これらの機能をベースに製品開発を行い、それぞれの市場をリードしています。
「中国語、日本語、朝鮮語の究極の検索エンジンを実現するために、Google はアジア言語処理の部分にベイシス・テクノロジー製品を選びました。これは Google が世界中のユーザーから選ばれる検索エンジンとして、不動の地位を確立する上で大きく貢献しました。」Google フェロー兼副社長、 Urs Hölzle 様
Rosette は、さまざまなアルゴリズムを使用し、各言語の要件に合わせて最適なアプローチを採用できるように設計されています。言語に応じて、語彙データ、ヒューリスティック規則、統計モデルなどを組み合わせて実装し、あらゆるアプリケーションで高精度かつ高速処理を実現します。
Rosetteは、特定の言語内で検索するか、複数言語にまたがって検索するかを問わず、市販されている製品の中で最も高度な機能を搭載しています。主な基本機能は:
Rosette は、大量の多言語テキストを処理する、あらゆるアプリケーションにとって最適な統合的言語処理プラットフォームです。以下にアプリケーション例を示します。
Rosette は、上述した各種言語処理機能を実現する単一の API です。検索ソリューションでは主に次の Rosette コンポーネントを使用します。
Rosette は、移植性および拡張性の高い SDK(Software Developer Kit)製品で、ラップトップ PC から、1 秒間に何千もの文書を処理するようなマルチ CPU サーバーに至るまで、あらゆるプラットフォームで稼働します。
充実した API を提供していますので、C、C++、Java などの言語で作成したアプリケーションから API にアクセスして使用できます。簡単な使い方を知っていただくために、コマンド・ライン・インターフェースも用意しています。
SDK は、Apple MacOS、Microsoft Windows、Sun Solaris、および複数の Linux ディストリビューション用のものを用意しています。