Rosette® 日本語形態素解析システム (RBL‑JA: Rosette Base Linguistics for Japanese) はポータブルで高性能な日本語テキスト単語分節(分かち書き)エンジンです。ウェブページ、電子メール、各種データベースの文書など、どのような種類の文書にもRBL‑JAは威力を発揮します。
日本語テキストは通常、スペースなしで書かれているうえ、漢字・平仮名・カタカナ・ローマ字など4種類の書記体系が利用されているため、コンピュータでの解析が容易ではありません。しかし、RBL‑JA はそのような日本語の解析を的確かつ効率的に実現します。
日本語のテキストの解析には、まず文章をトークン(単語)へと分割する必要があります(分かち書き)。さらに単語には様々な派生形がありますが、その処理を容易にするため一つの基本形に統一して処理したり(ステミングや基本化)、また複合名詞を構成要素別に分けたり(分割)、また様々な書式を統一するための相互変換、たとえば半角入力⇔全角入力等 (正規化)を実行します。
RBL‑JA はこれらの処理をおこなうためのアルゴリズムを持ち、さらに品詞情報と頻度情報をタグ付けした約50万語の辞書(* 半年毎に更新)を有し、正確に日本語テキストを単語に分割します。外来語の普及で増加しているカタカナ文字列の分かち書きも的確に行えるよう設計されています。
デスクトップPCから、1分間に数百文書を処理するような高速マルチCPUウェブサーバまで、多くのプラットフォームで動作可能です。
RBL‑JA は日本市場で既にご活躍の企業、また今後日本市場参入を目指す企業で幅広くご利用いただけます。特にインターネット用ソフトウェア、企業用アプリケーション、また、消費者直結型のe-ビジネスにおいても高い利用価値を持っています。
特に膨大な日本語文書の索引付けを必要とする情報検索、または、分節処理や語幹抽出、品詞分析を必要とする自然言語処理に、その威力を発揮します。
電子メールやブラウザ、ウェブでよく使用される文字コードにも対応しています。また、Rosette 言語・文字コード判別システムと一緒に使用することで、言語・文字コードの自動判別の対応範囲を広げることができます。
日本語をはじめ各国言語の語句の表記ゆれを標準的な形に正規化する辞書ベースのモジュールです。辞書編集者が実際のテキストから抽出した多くの表記ゆれパターンをもとに作成した辞書を使用します。
辞書は特に汎用のWeb検索を念頭に編纂してあります。漢字の字体だけでなく、カタカナの表記ゆれも正規化し、検索に役立つように設計されています。辞書には約5,000のカタカナ語句(ペア)が含まれています。
カタカナ表記ゆれの例を以下に示します。左が正規形、右の複数の表記が左の文字列に正規化されます。
また、漢字の新旧字体もサポートしています。辞書には旧字体の漢字を含む語句が登録されており、それらを新字体の表記に正規化します。