適用分野
ホーム»適用分野»検索ベース・アプリケーション

対応プラットフォーム

Windows, Linux, Solaris, AIX, HPUX, MacOS 等

対応言語

  • 日本語
  • 中国語簡体字
  • 中国語繁体字
  • 朝鮮語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語
  • アラビア語
  • アルバニア語
  • ブルガリア語
  • カタロニア語
  • クロアチア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • エストニア語
  • フィンランド語
  • ギリシャ語
  • ヘブライ語
  • ハンガリア語
  • インドネシア語
  • ラトビア語
  • マレー語
  • ノルウェー語
  • パシュトゥ語
  • ペルシャ語
  • ポーランド語
  • ポルトガル語
  • ルーマニア語
  • ロシア語
  • セルビア語
  • スロバキア語
  • スロベニア語
  • スウェーデン語
  • タイ語
  • トルコ語
  • ウクライナ語
  • ウルドゥ語

Rosette と検索ベース・アプリケーション

アジア、ヨーロッパ、中東言語の検索用に - 高精度なテキスト解析

全文検索の必要性はあらゆるところに存在します。インターネット、オフィス、家庭用コンピューター、携帯機器など、日常的に検索エンジンが使用されています。これらの製品により簡単に情報を取り出せるようになりましたが、内部で使われているテクノロジーは簡単ではありません。検索エンジンの内部には、「計算言語学」とよばれる高度なアルゴリズムが採用されています。このソフトウェアは、デジタル・テキストを解析して、即座に保管および検索を可能にします。

1998年以来、最も広く使用されているインターネット検索エンジンおよびエンタープライズ・サーチ・エンジンは、弊社のRosette® を採用し、分節処理、基本形化、複合語分解、品詞タグ付け、文境界検出、名詞句抽出など、基本的な自然文の解析を行なっています。弊社のお客様は、これらの機能をベースに製品開発を行い、それぞれの市場をリードしています。

「中国語、日本語、朝鮮語の究極の検索エンジンを実現するために、Google はアジア言語処理の部分にベイシス・テクノロジー製品を選びました。これは Google が世界中のユーザーから選ばれる検索エンジンとして、不動の地位を確立する上で大きく貢献しました。」 Google フェロー兼副社長、 Urs Hölzle 様

Rosette ソリューション

Rosette は、さまざまなアルゴリズムを使用し、各言語の要件に合わせて最適なアプローチを採用できるように設計されています。言語に応じて、語彙データ、ヒューリスティック規則、統計モデルなどを組み合わせて実装し、あらゆるアプリケーションで高精度かつ高速処理を実現します。

Rosette Segmentation, POS, and BNP Sample

新機能

Rosetteは、特定の言語内で検索するか、複数言語にまたがって検索するかを問わず、市販されている製品の中で最も高度な機能を搭載しています。主な基本機能は:

  • 言語判別。文書およびメッセージを言語および文字コードで分類します。
  • 分節処理。句読点などの特殊文字の検出など、入力データ内の固有の語彙トークンの境界を判別します。
  • 基本形化。動詞または形容詞の活用形から辞書の基本形を生成します。
  • 複合名詞の分解。正確な情報検索を実現するために、複合名詞を構成語に分解します。
  • 品詞判別。名詞、動詞、前置詞など、単語の品詞をタグ付けします。

検索拡張機能

  • 文境界の検出 – 個々の文の境界を検出します。
  • 名詞句抽出 – 単一の表現をなす単語セット (名詞単体を含む) を抽出します。
  • ユーザーが定義した停止語を無視できます。
  • アプリケーション固有の語彙を含んだ、ユーザー定義辞書のサポート
  • 言語の領域検出 – 単一の文書内の複数の言語領域を判別します。個々の言語を適切に処理できます。
  • 中国語字体変換システム – 中国語テキストを処理して、簡体字と繁体字を変換します。文字の変換だけでなく単語レベルの変換も可能です。
  • 日本語表記ゆれ対応モジュール – 日本語の単語の異なる正字法形式を標準形式に正規化します。

ユーザー・アプリケーションでの Rosette

Rosette は、大量の多言語テキストを処理する、あらゆるアプリケーションにとって最適な統合的言語処理プラットフォームです。以下にアプリケーション例を示します。

  • エンタープライズ・サーチ・エンジン
  • Web 検索テクノロジー
  • Apache Lucene および Solr ソリューション
  • 情報アクセス・プラットフォーム
  • E-ディスカバリーおよびデジタル・フォレンジック
  • 文書およびメディア解析
  • dtSearch ソリューション
  • E メールおよびインスタント・メッセージング

Rosette コンポーネント

Rosette は、上述した各種言語処理機能を実現する単一の API です。検索ソリューションでは主に次の Rosette コンポーネントを使用します。

システムの仕様

Rosette は、移植性および拡張性の高い SDK(Software Developer Kit)製品で、ラップトップ PC から、1 秒間に何千もの文書を処理するようなマルチ CPU サーバーに至るまで、あらゆるプラットフォームで稼働します。

充実した API を提供していますので、C、C++、Java などの言語で作成したアプリケーションから API にアクセスして使用できます。簡単な使い方を知っていただくために、コマンド・ライン・インターフェースも用意しています。

SDK は、Apple MacOS、Microsoft Windows、Sun Solaris、および複数の Linux ディストリビューション用のものを用意しています。

お問い合わせ

Error

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

「* 印の項目は必ず入力してください」