製品
ホーム»製品»言語処理プラットフォーム» 形態素解析システム (分かち書きツール) »日本語

対応プラットフォーム

Windows, Linux, Solaris, AIX, HPUX, MacOS 等

対応言語

  • 日本語
  • 中国語簡体字
  • 中国語繁体字
  • 朝鮮語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語
  • アラビア語
  • アルバニア語
  • ブルガリア語
  • カタロニア語
  • クロアチア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • エストニア語
  • フィンランド語
  • ギリシャ語
  • ヘブライ語
  • ハンガリア語
  • インドネシア語
  • ラトビア語
  • マレー語
  • ノルウェー語
  • パシュトゥ語
  • ペルシャ語
  • ポーランド語
  • ポルトガル語
  • ルーマニア語
  • ロシア語
  • セルビア語
  • スロバキア語
  • スロベニア語
  • スウェーデン語
  • タイ語
  • トルコ語
  • ウクライナ語
  • ウルドゥ語

Rosette 日本語形態素解析システム

キーワード抽出や索引生成に欠かせないツール

Rosette® 日本語形態素解析システム (RBL‑JA: Rosette Base Linguistics for Japanese) はポータブルで高性能な日本語テキスト単語分節(分かち書き)エンジンです。ウェブページ、電子メール、各種データベースの文書など、どのような種類の文書にもRBL‑JAは威力を発揮します。

日本語テキストは通常、スペースなしで書かれているうえ、漢字・平仮名・カタカナ・ローマ字など4種類の書記体系が利用されているため、コンピュータでの解析が容易ではありません。しかし、RBL‑JA はそのような日本語の解析を的確かつ効率的に実現します。

日本語のテキストの解析には、まず文章をトークン(単語)へと分割する必要があります(分かち書き)。さらに単語には様々な派生形がありますが、その処理を容易にするため一つの基本形に統一して処理したり(ステミングや基本化)、また複合名詞を構成要素別に分けたり(分割)、また様々な書式を統一するための相互変換、たとえば半角入力⇔全角入力等 (正規化)を実行します。

RBL‑JA はこれらの処理をおこなうためのアルゴリズムを持ち、さらに品詞情報と頻度情報をタグ付けした約50万語の辞書(* 半年毎に更新)を有し、正確に日本語テキストを単語に分割します。外来語の普及で増加しているカタカナ文字列の分かち書きも的確に行えるよう設計されています。

デスクトップPCから、1分間に数百文書を処理するような高速マルチCPUウェブサーバまで、多くのプラットフォームで動作可能です。

RBL Japanese Sample

応用分野

RBL‑JA は日本市場で既にご活躍の企業、また今後日本市場参入を目指す企業で幅広くご利用いただけます。特にインターネット用ソフトウェア、企業用アプリケーション、また、消費者直結型のe-ビジネスにおいても高い利用価値を持っています。

特に膨大な日本語文書の索引付けを必要とする情報検索、または、分節処理や語幹抽出、品詞分析を必要とする自然言語処理に、その威力を発揮します。

電子メールやブラウザ、ウェブでよく使用される文字コードにも対応しています。また、Rosette 言語・文字コード判別システムと一緒に使用することで、言語・文字コードの自動判別の対応範囲を広げることができます。

特長

  • 分節(分かち書き)/トークン化
  • ユーザー定義辞書の利用が可能
  • 品詞の付与、タグ付け
  • 複合語の抽出・分解
  • キーワード抽出、名詞句抽出
  • 活用語の基本形(終止形)を出力
  • 句読点、スペース、数字の識別およびフィルタリング
  • ストップワードの検知、ユーザー定義が可能
  • 平仮名、カタカナ、漢字、ローマ字などの日本語各種文字表記に対応
  • カタカナ文字列の分かち書きが的確におこなえる設計
  • 全角・半角文字に対応
  • 各トークンの語句を含む辞書(標準辞書もしくはユーザー定義辞書)の辞書IDを、解析結果に表示
  • ユーザー定義辞書に、顔文字などの特殊文字を含む語句の登録可能

辞書データ

  • 約50万語収録 (新語360語以上をさらに追加)
  • 日本人と西洋人の人名、地名、企業名を含む
  • 平仮名、カタカナ、漢字、ローマ字表記を含む

表記ゆれ対応モジュール

日本語をはじめ各国言語の語句の表記ゆれを標準的な形に正規化する辞書ベースのモジュールです。辞書編集者が実際のテキストから抽出した多くの表記ゆれパターンをもとに作成した辞書を使用します。

辞書は特に汎用のWeb検索を念頭に編纂してあります。漢字の字体だけでなく、カタカナの表記ゆれも正規化し、検索に役立つように設計されています。辞書には約5,000のカタカナ語句(ペア)が含まれています。

カタカナ表記ゆれの例を以下に示します。左が正規形、右の複数の表記が左の文字列に正規化されます。

  • ダンスセラピー ← ダンスセラピ / ダンステラピ / ダンステラピー
  • エキスポ ← エクスポ
  • バーミューダー ← バーミューダ / バミューダ
  • ファミコン ← ファミリーコンピュータ / ファミリーコンピューター
  • ベネチア ← ベニス / ベネツィア / ヴェネチア / ヴェネツィア

また、漢字の新旧字体もサポートしています。辞書には旧字体の漢字を含む語句が登録されており、それらを新字体の表記に正規化します。

お問い合わせ

Error

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

「* 印の項目は必ず入力してください」