製品
ホーム»製品»言語処理プラットフォーム»言語・文字コード判別システム

対応プラットフォーム

Windows, Linux, Solaris, AIX, HPUX, MacOS 等

Rosette 言語・文字コード判別システム

言語と文字コードを正確に判別し、文字化けを防止するツール

Internet の世界的普及につれ、世界各国から発信されるWebページがますます増加し、その情報収集や利用が進んでいますが、その一方で、それら各国語Webページの情報が文字化けして困ることがあります。それはそのWebページのデータの文字コード(*注1)が、ユーザーの使用するブラウザで正しく認識されないときに生じます。

Rosette® 言語・文字コード判別システム (RLI: Rosette Language Identifier) は、言語と文字コードをすばやく、かつ正確に判別するので、文字コードを適切に処理して文字化けを防ぎます。また言語ごとにデータを仕分けできるため、その後のアプリケー ションでの処理において、言語別の処理が効率的におこなえます。

対象アプリケーション

  • CRM のようなキーアプリケーション用の不特定なテキスト処理
  • データウエアハウジング
  • 以下のようなデータを通常使用する情報検索: Eメール、ホームページ、従来のシステムデータ、外部データ入力

RLI は、テキストの文字コードと言語を正確に判別します。様々なデータソースからテキストを操作、検索するあらゆるアプリケーションでテキスト操作を行います。

特長

アプリケーションを問わず、あらゆる未知の言語や文字コードのテキストの完全自動処理を可能にします。

このテキスト処理を自動化することにより次のことが可能です。

  • クライアントが要求する高速な稼動速度
  • 最新のn-gramアルゴリズムを使用した、より精度の高い判別
  • わずか10MBのメモリー消費

仕様

  • APIでの提供 (ドキュメント完備)
  • C, C++, Java対応
  • コマンドラインインターフェースもご要望に応じて提供可能

お問い合わせ

Error

詳細は、以下のフォームからお問い合わせください。折り返しご連絡差し上げます。

「* 印の項目は必ず入力してください」

*注1: 文字コードとは、コンピュータで文字を扱うために、特定の文字集合を定めてその各文字に一意な数値を割り当てたものです。たとえば、日本語テキストでは ISO-2022-JP, Shift-JIS, EUC-JP などの文字コードが使用されますが、同じ文字でも文字コードによって割り当てられている数値が異なります。たとえば、Shift-JISでは「あ」のコードは「82A0x」ですが、EUC-JP では「A4A2x」です。そのため、Shift-JIS データを誤ってEUC-JP, JIS-2004 (JISX0213) として処理してしまうと文字化けが生じるのです。