基本言語解析モジュール


diagram-RBL-hero-EN

高精度な言語解析を実現

日本語だけでなくどの言語でも、検索アプリケーションが的確な結果を返すためにはそれぞれの言語固有の難しい問題があります。Rosette 基本言語解析モジュール(RBL)の充実した言語解析機能は、多くの言語を扱うエンタープライズ・アプリケーションの効率的なテキスト処理や検索を可能にします。RBLはスピードと高い精度を誇る卓越した自然言語プロセッサーで各国語のテキストを適切に処理します。

言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの 改善を絶えず続けています。

40

言語に対応

  • アジア
  • 日本語
  • 朝鮮語
  • 中国語(簡体)
  • 中国語(繁体)
  • タイ語
  • インドネシア語
  • マレー語
    • 中東
    • アラビア語
    • ヘブライ語
    • パシュトウ語
    • ペルシャ語
    • ウルドゥ語
  • 西ヨーロッパ
  • カタロニア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • 英語
  • フィンランド語
  • フランス語
  • ドイツ語
  • ギリシャ語
  • イタリア語
  • ノルウェー語
  • ポルトガル語
  • スペイン語
  • スウェーデン語
  • 東ヨーロッパ
  • アルバニア語
  • ブルガリア語
  • クロアチア語
  • エストニア語
  • ハンガリー語
  • ラトビア語
  • ポーランド語
  • ルーマニア語
  • ロシア語
  • セルビア語
  • スロバキア語
  • スロベニア語
  • トルコ語
  • ウクライナ語
コードベース
C++
Web Services
Java
Microsoft .Net
プラットフォームサポート
Windows
Linux
Red Hat
Mac

Mac

主な機能

  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、またはウェブサービスが実装可
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDKのコンポーネント
  • ユーザー辞書、表記ゆれ辞書、中国語簡体字⇔中国語繁体字変換などのカスタマイズ機能

主な顧客

基本言語解析による高度な機能

トークン化 

Tokenization

多くの検索ツールでは、日本語など単語と単語の 間にスペースのない言語を処理する際、バイグラム という手法を用いています。この手法ですと、索引 データのサイズが増大し、検索精度も低くなります。 RBLでは、高度な統計モデリングを使用して、各単語を正確に抜き出し、検出することができます。RBL からのトークン出力データ(分節データ)は、最小限の索引データで、精度の高い、より的確な検索を実現します。

diagram-RBL-tokenization_example

基本形出力 

Lemmatization

ほとんどの検索エンジンは、単純に単語の最後を切り落として、語幹としています。このような語幹出力では、無駄に再現性(どれだけヒットするか)を高くするだけで、検索精度は低下します。RBLでは、語彙、文脈、および高度な形態素解析を使用して、辞書形式(基本形)を正確に返すことができます。すべての変化形を索引データに取り込まずに済むので、最小限の索引データで、精度の高い検索が実現できます。補助索引データ用に、代替基本形を出力することもできます。

Rosette-Base-Linguistics-JA-examples

 名詞句抽出 

Noun Phrase Extraction

特定の名詞、特に固有名詞は、ひとつのエンティティとして出力するのが難しい場合があります。RBLは、名詞とその修飾語句をグループ化することができ ますので、ドキュメント・クラスタリングやコンセプト抽出に有効です。

品詞タグ

diagram-RBL-POS_tagging

基本形出力では、同時に統計モデリングを用いて 品詞を特定します。各トークンには、充実した情報が付与され、的確な検索結果を実現します。

複合語の分解 

diagram-RBL-decompounding


RBLは、複合語を構成要素に分解し、要素ごとに索引データにすることが可能です。これは複合語が頻出する検索で、極めて有効です。

文の区切り

Sentence Detection

検索文章の始めと終わりは、句読点の使用が不明瞭であっても自動的に識別されます。


お問合せフォーム

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。
但し、個人の方からのお問い合わせには、ご対応いたしかねます。ご了承ください。

This is a unique website which will require a more modern browser to work! Please upgrade today!