基本言語解析モジュール


トークン化や品詞のタグづけ、基本形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基本的な言語解析モジュール

製品概要

高精度な言語解析を実現

Rosette® 基本言語解析モジュールはポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。

テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日本語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計されています。さらに、特定分野の用語や新語を追加するために複数のユーザー定義辞書を使用できます。

デスクトップPCから高速マルチCPUサーバまで多くのプラットフォームで様々な用途に利用可能です。

製品の特長

  • 40言語をサポート
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、またはウェブサービスが実装可
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDKのコンポーネント
  • ユーザー辞書、表記ゆれ辞書、中国語簡体字⇔中国語繁体字変換などのカスタマイズ機能

機能

トークン化 


多くの検索ツールでは、日本語など単語と単語の 間にスペースのない言語を処理する際、バイグラム という手法を用いています。この手法ですと、索引 データのサイズが増大し、検索精度も低くなります。 RBLでは、高度な統計モデリングを使用して、各単語を正確に抜き出し、検出することができます。RBL からのトークン出力データ(分節データ)は、最小限の索引データで、精度の高い、より的確な検索を実現します。

diagram-RBL-tokenization_example

複合語の分解 

Decompounding
RBLは、複合語を構成要素に分解し、要素ごとに索引データにすることが可能です。これは複合語が頻出する検索で、極めて有効です。

文の区切り


検索文章の始めと終わりは、句読点の使用が不明瞭であっても自動的に識別されます。

名詞句抽出


特定の名詞、特に固有名詞は、ひとつのエンティティとして出力するのが難しい場合があります。RBLは、名詞とその修飾語句をグループ化することができ ますので、ドキュメント・クラスタリングやコンセプト抽出に有効です。

品詞のタグづけ

Parts of Speech Tagging
基本形出力では、同時に統計モデリングを用いて 品詞を特定します。各トークンには、充実した情報が付与され、的確な検索結果を実現します。

基本形出力 

Lemmatization
ほとんどの検索エンジンは、単純に単語の最後を切り落として、語幹としています。このような語幹出力では、無駄に再現性(どれだけヒットするか)を高くするだけで、検索精度は低下します。RBLでは、語彙、文脈、および高度な形態素解析を使用して、辞書形式(基本形)を正確に返すことができます。すべての変化形を索引データに取り込まずに済むので、最小限の索引データで、精度の高い検索が実現できます。補助索引データ用に、代替基本形を出力することもできます。

例: 英語

基本形出力で、検索の再現性と精度が向上。言語解析は、すべての言語に有効です。

課題 もとの語 語幹 基本形
無関係の語が、同じ語幹を持つ animals
animated
anim animal
animate
意図しない語幹が出力される several sever several
不規則動詞の変化形と名詞が同じ語 spoke spoke speak (v.)
spoke(n.)

日本語、中国語の読み

Chinese & Japanese readings
日本語テキストの場合はカタカナで、中国語テキストの場合はピンインで、各トークンの読みを返します。

スペック

ご利用可能なプラットフォームなど

提供形態:
プラグイン:
プログラミング:

対応言語

アルバニア語 デンマーク語 ヘブライ語 ノルウェー語 スロバキア語
アラビア語 オランダ語 ハンガリー語 パシュトゥ語 スロベニア語
ブルガリア語 英語 インドネシア語 ペルシャ語 スペイン語
カタロニア語 エストニア語 イタリア語 ポーランド語 スウェーデン語
中国語(簡体字) フィンランド語 日本語 ポルトガル語 タイ語
中国語(繁体字) フランス語 韓国語 ルーマニア語 トルコ語
クロアチア語 ドイツ語 ラトビア語 ロシア語 ウクライナ語
チェコ語 ギリシャ語 マレー語 セルビア語 ウルドゥ語

Demo

お問い合わせ

 

お問い合わせ

弊社製品に関するお問い合わせおよび製品評価版のご利用をご希望の方は、こちらのフォームよりお問い合わせください。

製品評価版をご希望の際は、ご使用のOSおよび開発言語の種類を必ずご記載ください。

EMAIL:
info@basistech.jp

電話:
03-3551-2947

本モジュール利用顧客