Rosette-Language-Identifier-JA.pdf-1

言語の判別と 文字コードの変換

Rosette言語判別モジュール(RLI:Rosette Language Identifier) は、文書データのテキストを読んで、使われている言語と文字コードを素早く正確に判別します。多言語データの分類、検索、処理、保存を行うアプリケーションの膨大な文書処理が、RLIの自動言語判別機能で簡単に行えます。文書は、各言語の専門家に送られたり、タグ付けして効率よく次の工程に送られ処理されます。対象言語に特化された検索エンジンのプラグイン(Rosette基本言語解析モジュール等)と組み合わせ、検索結果を向上させることもできます。

RLIは、統計解析に基づく豊富な情報量の言語プロファイルによる特殊なアルゴリズムで、非常に高い精度を実現します。言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの改善を絶えず続けています。

情報解析

主な機能

  •  シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDKのコンポーネント

188

言語/ 文字コード


55

言語


7

ラテン文字表記言語


44

旧来文字コード

RLI Demo ビデオ (英語)

  • アルバニア語 — ISO-8859-1, Windows-1252
  • アラビア語 — ISO-8859-6, Windows-720, Windows-1256
  • アラビア語 (音訳) — ISO-8859-1, Windows-1252, Windows-1256
  • ベンガル語 — ISCII-Bengali
  • ブルガリア語 — ISO-8859-5, Windows-1251, KOI8-R
  • カタロニア語 — ISO-8859-1, Windows-1252
  • 中国語(簡体) — GB-2312, GB-18030, HZ-GB-2312, ISO-2022-CN
  • 中国語(繁体) — Big5, Big5-HKSCS
  • クロアチア語 — Windows-1250
  • チェコ語 — ISO-8859-2, Windows-1250
  • デンマーク語 — ISO-8859-1, Windows-1252
  • オランダ語 — ISO-8859-1, Windows-1252
  • 英語 — ISO-8859-1, Windows-1252
  • エストニア語 — ISO-8859-13, Windows-1257
  • フィンランド語 — ISO-8859-1, Windows-1252
  • フランス語 — ISO-8859-1, Windows-1252
  • ドイツ語 — ISO-8859-1, Windows-1252
  • ギリシャ語 — ISO-8859-7, Windows-1253
  • グジャラート語 — ISCII-Gujarati
  • ヘブライ語 — ISO-8859-8, Windows-1255
  • ヒンディー語 — ISCII-Hindi
  • ハンガリー語 — ISO-8859-2, Windows-1250
  • アイスランド語 — ISO-8859-1, Windows-1252
  • インドネシア語 — ISO-8859-1, Windows-1252
  • イタリア語 — ISO-8859-1, Windows-1252
  • 日本語 — EUC-JP, ISO-2022-JP, Shift-JIS, Shift- JIS-2004 (JIS X 0213)
  • カンナダ語 — ISCII-Kannada
  • 朝鮮語 — EUC-KR, ISO-2022-KR
  • クルド語 — Windows-1256
  • クルド語 (音訳) — ISO-8859-1, Windows-1252, Windows-1256
  • ラトビア語 — ISO-8859-13, Windows-1257
  • リトアニア語 — ISO-8859-13, Windows-1257
  • マケドニア語 — ISO-8859-5, Windows-1251
  • マレー語 — ISO-8859-1, Windows-1252
  • マラヤーラム語 — ISCII-Malayalam
  • ノルウェー語 — ISO-8859-1, Windows-1252
  • パシュトウ語 — ISO-8859-6, Windows-1256
  • パシュトウ語 (音訳) — ISO-8859-1, Windows-1252
  • ペルシャ語 — ISO-8859-6, Windows-1256
  • ペルシャ語 (音訳) — ISO-8859-1, Windows-1252, Windows-1256
  • ポーランド語 — ISO-8859-2, Windows-1250
  • ポルトガル語 — ISO-8859-1, Windows-1252
  • ルーマニア語 — ISO-8859-2, Windows-1250
  • ロシア語 — ISO-8859-5, Windows-1251, KOI8-R, IBM-866, Mac Cyrillic
  • セルビア語 — ISO-8859-5, Windows-1251
  • セルビア語 (音訳) — ISO-8859-2, Windows-1250
  • スロバキア語 — Windows-1250
  • スロベニア語 — Windows-1250
  • ソマリ語 — ISO-8859-1, Windows-1252
  • スペイン語 — ISO-8859-1, Windows-1252
  • スウェーデン語 — ISO-8859-1, Windows-1252
  • タガログ語 — ISO-8859-1, Windows-1252
  • タミル語 — ISCII-Tamil
  • テルグ語 — ISCII-Telugu
  • タイ語 — Windows-874
  • トルコ語 — ISO-8859-9, Windows-1254
  • ウクライナ語 — ISO-8859-5, Windows-1251, KOI8-R
  • ウルドゥ語 — ISO-8859-6, Windows-1256
  • ウルドゥ語 (音訳) — ISO-8859-1, Windows-1252
  • ウズベキスタン語 — ISO-8859-5, Windows-1251, KOI8-R
  • ウズベキスタン語 (音訳) — Windows-1251
  • ベトナム語 — TCVN, VIQR, VISCII, VNI, VPS
コードベース
C++
Web Services
Java
Microsoft .Net
プラットフォーム
Windows
Linux
Red Hat
Mac

主な顧客


判別機能

  • 文書の主要な言語を判別
  • 文書内の言語体系(ラテン文字やキリル文字等) を識別
  • 多言語文書で使用されている言語と、その割合を判別
  • アラビア語をアルファベットで表記したアラビア語チャットのような、音訳された言葉にも対応

言語領域検出

diagram-RLI-lang_boundary_locator-EN-JP-01

電子データには、一つの文書に複数の言語が含まれていることが多く、多言語の処理は、コンピューターにとっても人間にとっても大きな課題です。RLIは、 多言語データの言語が同じ文字体系であっても(英語、フランス語、ドイツ語、イタリア語等)、各言語の 領域にスタートおよびエンドマーカーを追加します。また、ラテン文字、キリル文字、仮名、漢字等の各文字体系の境界も検出します。

文字コード変換 

RLI-Unicode

最新の文字コード規格(XML等)はUnicodeの使用を義務づけていますが、多くの既存のアプリケーション、文書、ウェブサイトおよびデータストリームは、ASCII、ISO 8859-1、Shift-JISその他の「旧来の文字コード」を使用しています。

Rosetteは、旧来の文字コードで作成された大量のテキストを、Unicode規格に正確に変換します。変換されたテキストは、文字コードの互換性に起因する文字化けなど、データ破損の心配がありませんので、多くの言語で使用することができます。


お問合せ

詳細は以下のフォームからお問い合わせください。折り返しご連絡差し上げます。
但し、個人の方からのお問い合わせには、ご対応いたしかねます。ご了承ください。

This is a unique website which will require a more modern browser to work! Please upgrade today!