Rosette Language Identifier

大量の多言語テキストデータであっても、瞬時に何語であるか判別し、分析対象となる言語のテキストを選定

製品評価版お問い合わせフォーム

製品概要

言語の判別と 文字コードの変換

Rosette Language Identifier (言語判別) は、文書データのテキストを読んで、使われている言語と文字コードを素早く正確に判別します。多言語データの分類、検索、処理、保存を行うアプリケーションの膨大な文書処理が、自動言語判別機能で簡単に行えます。文書は、各言語の専門家に送られたり、タグ付けして効率よく次の工程に送られ処理されます。対象言語に特化された検索エンジンのプラグイン(Rosette Basis Linguistics 等)と組み合わせ、検索結果を向上させることもできます。

Rosette Language Identifier は、統計解析に基づく豊富な情報量の言語プロファイルによる特殊なアルゴリズムで、非常に高い精度を実現します。言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入など、Rosette テキスト解析の改善を絶えず続けています。

製品の特長

  • 188 言語/文字コードのペアに対応
  • 55 言語に対応
  • 18 言語のスクリプト (ラテン、キリル文字など)
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 強力なサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能
  • Java、C++、ウェブサービスAPI
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDKのコンポーネント

特徴

判別機能

  • 文書の主要な言語を判別
  • 文書内の言語体系(ラテン文字やキリル文字等) を識別
  • 多言語文書で使用されている言語と、その割合を判別
  • アラビア語をアルファベットで表記したアラビア語チャットのような、音訳された言葉にも対応

言語領域検出

RLI Lang Boundary Diagram

電子データには、一つの文書に複数の言語が含まれていることが多く、多言語の処理は、コンピューターにとっても人間にとっても大きな課題です。Rosette Language Identifier は、 多言語データの言語が同じ文字体系であっても(英語、フランス語、ドイツ語、イタリア語等)、各言語の 領域にスタートおよびエンドマーカーを追加します。また、ラテン文字、キリル文字、仮名、漢字等の各文字体系の境界も検出します。

文字コード変換

RLI-Unicode

最新の文字コード規格(XML等)はUnicodeの使用を義務づけていますが、多くの既存のアプリケーション、文書、ウェブサイトおよびデータストリームは、ASCII、ISO 8859-1、Shift-JISその他の「旧来の文字コード」を使用しています。

Rosetteは、旧来の文字コードで作成された大量のテキストを、Unicode規格に正確に変換します。変換されたテキストは、文字コードの互換性に起因する文字化けなど、データ破損の心配がありませんので、多くの言語で使用することができます。

スペック

ご利用可能なプラットフォームなど

提供形態:
プラグイン:
Bindings:

対応言語

*の付いた言語を除くすべての言語は、短い文字列での判別が可能です。

アルバニア語 アラビア語 アラビア語(音訳)* ベンガル語
ブルガリ語 カタロニア語 中国語(簡体字) 中国語(繁体字)
クロアチア語 チャコ語 デンマーク語 オランダ語
英語 エストニア語 フィンランド語 フランス語
ドイツ語 ギリシャ語 グジャラート語 ヘブライ語
ヒンディ語 ハンガリー語 アイスランド語 インドネシア語
イタリア語 日本語 カンナダ語 韓国語
クルド語 クルド語(音訳) ラトビア語 リトアニア語
マケドニア語 マレー語 マラヤーラム語 ノルウェー語
パシュトゥ語 パシュトゥ語(音訳)* ペルシャ語 ペルシャ語(音訳)*
ポーランド語 ポルトガル語 ルーマニア語 ロシア語
セルビア語 セルビア語(音訳) スロバキア語 スロベニア語
ソマリ語 スペイン語 スウェーデン語 タガログ語
タミール語 テルグ語 タイ語 トルコ語
ウクライナ語 ウルドゥ語 ウルドゥ語(音訳)* ウズベキスタン語
ウズベキスタン語(音訳) ベトナム語

Online Demo

Cloud

Easy to use

Built for the most demanding text analytics applications and engineered to deliver high accuracy without sacrificing speed, Rosette Cloud is instantly accessible and offers a variety of plans to suit both startups and enterprises. The language ID endpoint identifies the dominant language within a document. For multilingual documents, send text through the sentence tagger endpoint and then feed a sentence at a time to the language ID endpoint. Or, ask about our enterprise deployments.

Try language identifier and the rest of Rosette Cloud’s endpoints for signup today for a 30-day free trial!

Get a Rosette Cloud Key

Quality documentation and support

Customers love our thorough and responsive support team. We also provide in-depth documentation that lists all the features and functions of the various Rosette Cloud endpoints along-side examples in the binding of your choice.

Visit our GitHub for the binding and documentation.

Enterprise ready

Evaluate Rosette’s functional fit with your business and data needs on Rosette Cloud knowing that scalable, customizable, enterprise deployments are available if you need them.

{
  "languageDetections": [
    {
      "language": "spa",
      "confidence": 0.38719602327387076
    },
    {
      "language": "eng",
      "confidence": 0.32699986625091865
    },
    {
      "language": "por",
      "confidence": 0.05569054210624943
    },
    {
      "language": "deu",
      "confidence": 0.030069489878380328
    },
    {
      "language": "swe",
      "confidence": 0.027734757034048835
    }
  ]
}

Enterprise

ニーズに合わせたカスタマイズが可能

Docker コンテナなどでローカルにインストールでき、オンプレミス環境下でWeb API またはSDK でご利用でいただけます。

膨大なデータ量を抱え、独自の統合ニーズを持ちながらもデータセキュリティに制約のある組織向けに、社内サーバー上にホストされる Rosette Enterprise をご用意しております。

Language Identifier では、文書全体の主言語を判別すると同時に、多言語文書の言語領域を検出することが可能です。

弊社製品に関するお問い合わせおよび Enterprise版のご利用をご希望の方は、下記のフォームに必要事項をご記入のうえ、お気軽にご相談ください。

連絡

EMAIL:
info@basistech.jp

電話:
03-3551-2947

本モジュール利用顧客