アラビア語


 

Rosette 基本言語解析モジュール-アラビア語

複雑な活用、特殊な記号を正規化

アラビア語は、この言語が「話し言葉」として発達してきた背景から、通常の「書き言葉」をベースにした自動解析技術に適していません。アラビア語は、一般的に動詞的要素を組み合わせて動詞の相である、目的、活用、人称、数、性などを表現します。例えば、英語は前置詞「or」や「and」が名詞の前に置かれるのに対して、アラビア語の前置詞は属する名詞の一部となります(「Their house」をアラビア語で書くと、「بُيُوتُهُمْ」 と1つの単語になる)。また、アラビア語は、一貫性のない母音の使用や母音の欠如によるあいまいな部分もあります。そのため、アラビア語テキストを正確に索引付け、検索あるいはテキスト操作するためには、有効な前処理が必要となります。

Rosette® 基本言語解析モジュール-アラビア語(Rosette Base Linguistics for Arabic) は、アラビア語文書を解析するためのマルチプラットフォーム対応の高性能基本言語解析モジュールエンジンです。主要なサーチエンジンあるいはデータマイニング製品に直接導入できるように設計されており、アラビア語の綴りおよび語彙の正規化を行います。

特長:

  • 単語の語幹を作成
  • 品詞の判別
  • 母音およびアラビア語特有な記号の削除、ハムザ(独立した子音)の統合、カシダ(アラビア語の引伸ばし記号)の削除など、綴りの正規化を行う
  • 複数形を適切な単数形へと正規化する(“broken plurals”)
  • アラビア語数字をラン点後の数字表記へと正規化する
  • ストップワードのユーザー定義が可能

sample-rbl-ar

基本言語解析モジュールはそれぞれの単語の品詞を判別し、単語の原形を出力します。


お問合せフォーム

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。
但し、個人の方からのお問い合わせには、ご対応いたしかねます。ご了承ください。

This is a unique website which will require a more modern browser to work! Please upgrade today!