言語判別モジュール


大量の多言語テキストデータであっても、瞬時に何語であるか判別し、分析対象となる言語のテキストを選定

製品概要

言語の判別と 文字コードの変換

Rosette言語判別モジュール(RLI:Rosette Language Identifier) は、文書データのテキストを読んで、使われている言語と文字コードを素早く正確に判別します。多言語データの分類、検索、処理、保存を行うアプリケーションの膨大な文書処理が、RLIの自動言語判別機能で簡単に行えます。文書は、各言語の専門家に送られたり、タグ付けして効率よく次の工程に送られ処理されます。対象言語に特化された検索エンジンのプラグイン(Rosette基本言語解析モジュール等)と組み合わせ、検索結果を向上させることもできます。

RLIは、統計解析に基づく豊富な情報量の言語プロファイルによる特殊なアルゴリズムで、非常に高い精度を実現します。言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの改善を絶えず続けています。

製品の特長

  • 188 言語/文字コードのペアに対応
  • 55 言語に対応
  • 18 言語のスクリプト (ラテン、キリル文字など)
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDKのコンポーネント

機能

判別機能

  • 文書の主要な言語を判別
  • 文書内の言語体系(ラテン文字やキリル文字等) を識別
  • 多言語文書で使用されている言語と、その割合を判別
  • アラビア語をアルファベットで表記したアラビア語チャットのような、音訳された言葉にも対応

言語領域検出

diagram-RLI-lang_boundary_locator-EN-JP-01

電子データには、一つの文書に複数の言語が含まれていることが多く、多言語の処理は、コンピューターにとっても人間にとっても大きな課題です。RLIは、 多言語データの言語が同じ文字体系であっても(英語、フランス語、ドイツ語、イタリア語等)、各言語の 領域にスタートおよびエンドマーカーを追加します。また、ラテン文字、キリル文字、仮名、漢字等の各文字体系の境界も検出します。

文字コード変換

RLI-Unicode

最新の文字コード規格(XML等)はUnicodeの使用を義務づけていますが、多くの既存のアプリケーション、文書、ウェブサイトおよびデータストリームは、ASCII、ISO 8859-1、Shift-JISその他の「旧来の文字コード」を使用しています。

Rosetteは、旧来の文字コードで作成された大量のテキストを、Unicode規格に正確に変換します。変換されたテキストは、文字コードの互換性に起因する文字化けなど、データ破損の心配がありませんので、多くの言語で使用することができます。

スペック

ご利用可能なプラットフォームなど

提供形態:
プラグイン:
Bindings:

対応言語

アルバニア語 アラビア語 アラビア語(音訳) ベンガル語
ブルガリ語 カタロニア語 中国語(簡体字) 中国語(繁体字)
クロアチア語 チャコ語 デンマーク語 オランダ語
英語 エストニア語 フィンランド語 フランス語
ドイツ語 ギリシャ語 グジャラート語 ヘブライ語
ヒンディ語 ハンガリー語 アイスランド語 インドネシア語
イタリア語 日本語 カンナダ語 韓国語
クルド語 クルド語(音訳) ラトビア語 リトアニア語
マケドニア語 マレー語 マラヤーラム語 ノルウェー語
パシュトゥ語 パシュトゥ語(音訳) ペルシャ語 ペルシャ語(音訳)
ポーランド語 ポルトガル語 ルーマニア語 ロシア語
セルビア語 セルビア語(音訳) スロバキア語 スロベニア語
ソマリ語 スペイン語 スウェーデン語 タガログ語
タミール語 テルグ語 タイ語 トルコ語
ウクライナ語 ウルドゥ語 ウルドゥ語(音訳) ウズベキスタン語
ウズベキスタン語(音訳) ベトナム語

短い文字列でも判別できる言語

アラビア語 中国語(簡体字) 中国語(繁体字) チェコ語
デンマーク語 オランダ語 英語 フィンランド語
フランス語 ドイツ語 ギリシャ語 ヘブライ語
ハンガリー語 イタリア語 日本語 韓国語
ノルウェー語 パシュトゥ語 ペルシャ語 ポルトガル語
ルーマニア語 ロシア語 スペイン語 スウェーデン語
タイ語 トルコ語

Demo

お問い合わせ

お問い合わせ

弊社製品に関するお問い合わせおよび製品評価版のご利用をご希望の方は、こちらのフォームよりお問い合わせください。

製品評価版をご希望の際は、ご使用のOSおよび開発言語の種類を必ずご記載ください。

EMAIL:
info@basistech.jp

電話:
03-3551-2947

本モジュール利用顧客