製品
ホーム»製品»言語処理プラットフォーム» 形態素解析システム (分かち書きツール) »アラビア語

対応プラットフォーム

Windows, Linux, Solaris, AIX, HPUX, MacOS 等

対応言語

  • 日本語
  • 中国語簡体字
  • 中国語繁体字
  • 朝鮮語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語
  • アラビア語
  • アルバニア語
  • ブルガリア語
  • カタロニア語
  • クロアチア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • エストニア語
  • フィンランド語
  • ギリシャ語
  • ヘブライ語
  • ハンガリア語
  • インドネシア語
  • ラトビア語
  • マレー語
  • ノルウェー語
  • パシュトゥ語
  • ペルシャ語
  • ポーランド語
  • ポルトガル語
  • ルーマニア語
  • ロシア語
  • セルビア語
  • スロバキア語
  • スロベニア語
  • スウェーデン語
  • タイ語
  • トルコ語
  • ウクライナ語
  • ウルドゥ語

Rosette アラビア語形態素解析システム

アラビア語の非構造化テキストの形態素解析システム

アラビア語は、この言語が「話し言葉」として発達してきた背景から、通常の「書き言葉」をベースにした自動解析技術に適していません。アラビア語は、一般的に動詞的要素を組み合わせて動詞の相である、目的、活用、人称、数、性などを表現します。例えば、英語は前置詞「or」や「and」が名詞の前に置かれるのに対して、アラビア語の前置詞は属する名詞の一部となります(「Their house」をアラビア語で書くと、「بُيُوتُهُمْ」 と1つの単語になる)。また、アラビア語は、一貫性のない母音の使用や母音の欠如によるあいまいな部分もあります。そのため、アラビア語テキストを正確に索引付け、検索あるいはテキスト操作するためには、有効な前処理が必要となります。

Rosette® アラビア語形態素解析システムは、アラビア語文書を解析するためのマルチプラットフォーム対応の高性能形態素解析エンジンです。主要なサーチエンジンあるいはデータマイニング製品に直接導入できるように設計されており、アラビア語の綴りおよび語彙の正規化を行います。

特長:

  • 単語の語幹を作成
  • 品詞の判別
  • 母音およびアラビア語特有な記号の削除、ハムザ(独立した子音)の統合、カシダ(アラビア語の引伸ばし記号)の削除など、綴りの正規化を行う
  • 複数形を適切な単数形へと正規化する(“broken plurals”)
  • アラビア語数字をラン点後の数字表記へと正規化する
  • ストップワードのユーザー定義が可能
Rosette Base Linguisitcs Arabic Sample形態素解析はそれぞれの単語の品詞を判別し、単語の原形を出力します。

お問い合わせ

Error

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

「* 印の項目は必ず入力してください」