日本語



Rosette 基本言語解析モジュール-日本語

日本語テキストをトークン分割: 全文検索やテキスト解析に品詞、基本形出力にくわえ、表記ゆれ対応や名詞句抽出も

Rosette® 基本言語解析モジュール-日本語 (RBL-JA: Rosette Base Linguistics for Japanese) はポータブルで高性能な日本語テキスト分節(分かち書き)エンジンです。10年以上にわたり、多くのWeb検索エンジンやエンタープライズ・サーチのインデックス生成にトークナイザとして利用されています。

RBL-JA は日本語テキストを単語(トークン)に分割し、トークンに品詞を付与するとともに、活用語を正規化して基本形(辞書に載っている標準形)を出力します。さらに、複合名詞をその構成要素に分解したり、読みを出力する機能もあります。独自のアルゴリズムと約50万語の辞書(* 随時更新)でRBL-JA は日本語テキストを的確に分節します。外来語由来のカタカナ文字列の分かち書きも適切に行えるよう設計されています。さらに、特定分野の用語や新語を追加するために複数のユーザー定義辞書を使用できます。

RBL-JA には、表記ゆれ正規化、基本名詞句抽出 といった機能もあります。表記ゆれ対応モジュールが、トークンの漢字(旧字体)やカタカナ表記を正規化します。基本名詞句抽出はテキスト中の単純な名詞句を抽出します。抽出された名詞句は検索サポートや情報分析に利用できます。

デスクトップPCから高速マルチCPUサーバまで多くのプラットフォームで様々な用途に利用可能です。

sample-rbl-ja-3

特長

  • 分節(分かち書き)/トークン化
  • ユーザー定義辞書の利用が可能
  • 品詞の付与、タグ付け
  • 複合語の抽出・分解
  • キーワード抽出、名詞句抽出
  • 活用語の基本形(終止形)を出力
  • 句読点、スペース、数字の識別およびフィルタリング
  • ストップワードの検知、ユーザー定義が可能
  • 平仮名、カタカナ、漢字、ローマ字などの日本語各種文字表記に対応
  • カタカナ文字列の分かち書きが的確におこなえる設計
  • 全角・半角文字に対応
  • 各トークンの語句を含む辞書(標準辞書もしくはユーザー定義辞書)の辞書IDを、解析結果に表示
  • ユーザー定義辞書に、顔文字などの特殊文字を含む語句の登録可能

辞書データ

  • 約50万語収録 (新語360語以上をさらに追加)
  • 日本人と西洋人の人名、地名、企業名を含む
  • 平仮名、カタカナ、漢字、ローマ字表記を含む

表記ゆれ対応モジュール (Many-to-one Normalizer)

日本語や外来語の語句の表記ゆれを標準的な形に正規化する辞書ベースのモジュールです。汎用のWeb検索を念頭に辞書編集者が実際のテキストから抽出した多くの表記ゆれパターンをもとに作成した辞書を使用しています。表記ゆれを正規化した語句をインデックスすることで、検索の再現率が向上します。

旧字体の漢字を含む語句を新字体の表記に正規化(大學→大学)するだけでなく、カタカナの表記ゆれにも対応しています。

辞書には約5,000のカタカナ語句(ペア)が含まれています。カタカナ表記ゆれの例を以下に示します。左が正規形、右の複数の表記が左の文字列に正規化されます。

  • ダンスセラピー ← ダンスセラピ / ダンステラピ / ダンステラピー
  • エキスポ ← エクスポ
  • バーミューダー ← バーミューダ / バミューダ
  • ファミコン ← ファミリーコンピュータ / ファミリーコンピューター
  • ベネチア ← ベニス / ベネツィア / ヴェネチア / ヴェネツィア

基本名詞句抽出 (Base Noun Phrase)

テキストに含まれる名詞句を抽出します。例えば、「独自のアルゴリズム」「日本語形態素解析「革新的なメディア分析」といった比較的単純な名詞句です。1つの文書の中で特定の語句が頻出する場合、それが話題の中心を示していることが推測できます。単語の頻度を調べるより、名詞句のようにある程度意味が限定される単位のほうが、正確な情報を得やすく、話題そのものもわかりやすくなります。同じような話題の文書のクラスタリング、特定の条件の名詞句をクエリーの候補とする検索サポートなど、応用は様々です。

使われ始めると瞬く間に広がるネットの新語や注目される人や事柄を示す言葉は、既にある単語を組み合わせた名詞句であることが多いものです。従って、その時々でソーシャルメディアに頻出する名詞句は、今注目されているものを表すキーワードである可能性が高いと考えられます。チャットやツイッターに頻出する名詞句を手掛かりにトレンドを分析するなど、ソーシャルメディアの情報解析に有効な手段を提供します。

基本名詞句抽出は、日本語のほか、中国語、英語など欧州語も提供しています。


お問合せフォーム

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

但し、個人の方からのお問い合わせには、ご対応いたしかねます。ご了承ください。

This is a unique website which will require a more modern browser to work! Please upgrade today!