Rosette Base Linguistics
トークン化や品詞のタグづけ、基本形化、複合語分解、漢字の読みなどの機能で高度なテキスト解析を実現する基本的な言語解析モジュール
製品評価版お問い合わせフォーム
製品概要
高精度な言語解析を実現
Rosette Base Linguictics (基本言語解析)はポータブルで高性能なテキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。
テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でテキストを的確に分節します。日本語の外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計されています。さらに、特定分野の用語や新語を追加するために複数のユーザー定義辞書を使用できます。
デスクトップPCから高速マルチCPUサーバまで多くのプラットフォームで様々な用途に利用可能です。
製品の特長
- 32言語をサポート
- シンプルなAPI
- 高い拡張性と処理能力
- 強力なサポート
- 簡単なインストール
- 柔軟でカスタマイズ可能
- Java、C++、またはウェブサービスが実装可
- プラットフォーム:Unix、Linux、Mac、Windows
- Rosette SDKのコンポーネント
- ユーザー辞書、表記ゆれ辞書、中国語簡体字⇔中国語繁体字変換などのカスタマイズ機能
特徴
分かち書き
多くの検索ツールでは、日本語など単語と単語の 間にスペースのない言語を処理する際、バイグラム という手法を用いています。この手法ですと、索引 データのサイズが増大し、検索精度も低くなります。 Base Linguistics では、高度な統計モデリングを使用して、各単語を正確に抜き出し、検出することができます。Base Linguistics からのトークン出力データ(分節データ)は、最小限の索引データで、精度の高い、より的確な検索を実現します。
複合語の分解
RBLは、複合語を構成要素に分解し、要素ごとに索引データにすることが可能です。これは複合語が頻出する検索で、極めて有効です。
文の区切り
検索文章の始めと終わりは、句読点の使用が不明瞭であっても自動的に識別されます。
エンティティ抽出
特定の名詞、特に固有名詞は、ひとつのエンティティとして出力するのが難しい場合があります。RBLは、名詞とその修飾語句をグループ化することができ ますので、ドキュメント・クラスタリングやコンセプト抽出に有効です。
品詞分解
基本形出力では、同時に統計モデリングを用いて 品詞を特定します。各トークンには、充実した情報が付与され、的確な検索結果を実現します。
見出し語化
ほとんどの検索エンジンは、単純に単語の最後を切り落として、語幹としています。このような語幹出力では、無駄に再現性(どれだけヒットするか)を高くするだけで、検索精度は低下します。RBLでは、語彙、文脈、および高度な形態素解析を使用して、辞書形式(基本形)を正確に返すことができます。すべての変化形を索引データに取り込まずに済むので、最小限の索引データで、精度の高い検索が実現できます。補助索引データ用に、代替基本形を出力することもできます。
例: 英語基本形出力で、検索の再現性と精度が向上。言語解析は、すべての言語に有効です。 |
|||
課題 | もとの語 | 語幹 | 基本形 |
無関係の語が、同じ語幹を持つ | animals animated |
anim | animal animate |
意図しない語幹が出力される | several | sever | several |
不規則動詞の変化形と名詞が同じ語 | spoke | spoke | speak (v.) spoke(n.) |
日本語、中国語の読み
日本語テキストの場合はカタカナで、中国語テキストの場合はピンインで、各トークンの読みを返します。
スペック
ご利用可能なプラットフォームなど
提供形態: | |
プラグイン: | |
プログラミング: |
対応言語
アルバニア語 | デンマーク語 | ヘブライ語 | ノルウェー語 | スロバキア語 | |
アラビア語 | オランダ語 | ハンガリー語 | パシュトゥ語 | スロベニア語 | |
ブルガリア語 | 英語 | インドネシア語 | ペルシャ語 | スペイン語 | |
カタロニア語 | エストニア語 | イタリア語 | ポーランド語 | スウェーデン語 | |
中国語(簡体字) | フィンランド語 | 日本語 | ポルトガル語 | タイ語 | |
中国語(繁体字) | フランス語 | 韓国語 | ルーマニア語 | トルコ語 | |
クロアチア語 | ドイツ語 | ラトビア語 | ロシア語 | ウクライナ語 | |
チェコ語 | ギリシャ語 | マレー語 | セルビア語 | ウルドゥ語 | |
タガログ語 | インドネシア語 |
Online Demo
Cloud
Easy to use
Built for the most demanding text analytics applications and engineered to deliver high accuracy without sacrificing speed, Rosette Cloud is instantly accessible and offers a variety of plans to suit both startups and enterprises. The tokenization and sentences endpoints break your text into word components and sentences, and the morphological analysis endpoint provides POS tagging, lemmatization, decompounding, and Chinese/Japanese readings.
Try base linguistics and the rest of Rosette Cloud’s endpoints, signup today for a 30-day free trial!
Quality documentation and support
Customers love our thorough and responsive support team. We also provide in-depth documentation that lists all the features and functions of the various Rosette Cloud endpoints along-side examples in the binding of your choice.
Visit our GitHub for the binding and documentation.
Enterprise ready
Evaluate Rosette’s functional fit with your business and data needs on Rosette Cloud knowing that scalable, customizable, enterprise deployments are available if you need them.
{ "tokens": [ "The", "fact", "is", "that", "the", "geese", "just", "went", "back", "to", "get", "a", "rest", "and", "I", "'m", "not", "banking", "on", "their", "return", "soon" ], "lemmas": [ "the", "fact", "be", "that", "the", "goose", "just", "go", "back", "to", "get", "a", "rest", "and", "I", "be", "not", "bank", "on", "they", "return", "soon" ] }
Enterprise
ニーズに合わせたカスタマイズが可能
Docker コンテナなどでローカルにインストールでき、オンプレミス環境下でWeb API またはSDK でご利用でいただけます。
膨大なデータ量を抱え、独自の統合ニーズを持ちながらもデータセキュリティに制約のある組織向けに、社内サーバー上にホストされる Rosette Enterprise をご用意しております。
弊社製品に関するお問い合わせおよび Enterprise版のご利用をご希望の方は、下記のフォームに必要事項をご記入のうえ、お気軽にご相談ください。
連絡
EMAIL:
info@basistech.jp
電話:
03-3551-2947