Rossete 基本言語解析モジュールがCloudera 認定を取得


Rosette Base Linguistics is Cloudera Certified

Cloudera について説明するには、まず Hadoop について簡単に説明する必要があります。

Hadoop は、分散インフラストラクチャー上で大規模なデータ・セットを処理するための枠組みである MapReduce に関して Google のエンジニアが公表した数本の論文に基づいて構築されたオープンソースのアプリケーションです。Facebook などの多数の企業が利用しています。また、学生に Hadoop を教える取り組みに Google と IBM が資金を提供しています。

Cloudera はこれを自身のビジネスチャンスと捉え、独自で Hadoop: Cloudera Distributed Hadoop(CDH) をリリースしました。これは無料ですが、Cloudera はこのソフトウェアに対するサポートとコンサルティングのサービスを提供しています。

Cloudera の顧客にはバイオテクノロジー、石油/ガス、小売、保険などの分野の企業があり、それぞれコストを抑えながら、より多くの価値ある情報を得ることに成功しています。

Basis Technology の技術でできること

ビッグデータの 80% はいわゆる「ビッグテキスト」です。弊社のもつ言語解析技術はテキスト処理、特にテキスト検索に威力を発揮します。

Cloudera Search は、エンタープライズ向けオープンソース検索エンジンのApach Solr が基盤となっています。

Cloudera Search は、新世代の検索である ビッグテキスト検索に、拡張性と信頼性をもたらします。 これが Apach Solr の価値を高め、Apach Hive や Cloudera Impala といった他の関連システムと同等の耐障害性、拡張性、 可視性、柔軟性を得ることができます。

Rosette 基本言語解析モジュール(RBL)は、Cloudera Search とシームレスに統合され、40 を超える言語で包括的な一連の言語サービスを提供します。RBL は検索の品質を劇的に向上させ、ネイティブ言語のオリジナル・テキストの利用価値を高めます。

Cloudera 事業開発担当バイス・プレジデント Tim Stevens氏は次のとおりコメントしています。「適切な解決策なしにビッグデータ検索の課題に取り組むのは困難です。特に、複数の国や言語の膨大な量のデータを扱わなくてはなりません。 Basis Technology とその実績ある製品は、弊社検索フレームワークの重要な構成要素です。そして、言語や構造化の有無に関わらず、顧客に最高のクエリーサービスを提供し続けられることを保証してくれます。」

Basis Technology のCEO、Carl Hoffman は下記のとおり述べています。

「弊社は、業界最高の言語解析ソフトウェアを開発して、多言語の非構造化テキストから意味のあるインテリジェンスを抽出していると自負しています。ビッグデータ処理の確固たるリーダーである Cloudera とともに、これからもイノベーションの先頭に立ち続けていきます。

企業や政府機関が競争力と影響力を保つために、非構造化テキストを迅速かつ正確に解析する必要性が非常に高まっています。Cloudera と連携して絶えず進化し続ける課題に対処していくことを楽しみにしています。」

Cloudera ユーザーにもたらされる利点

この提携と認定により、クラス最高の対話型全文検索と拡張性の高い索引付けが Apache Hadoop™ で可能になりました。定評あるビッグデータ・プラットフォーム Cloudera Distributed Hadoop(CDH)でご利用ください。

RBLの主な特長
  • 高度な形態素解析機能
  • シンプルな API
  • 高い拡張性とスループット
  • 強力なサポート
  • 簡単なインストール
  • 高い柔軟性とカスタマイズ可能性
  • プラットフォーム:Unix、Linux、Mac、Windows
  • Rosette SDK のコンポーネント
  • カスタマイズ可能なユーザー辞書、日本語表記ゆれ対応モジュール

Rosette 基本言語解析モジュールの高度な形態素解析解析機能

トークン化

Tokenization

多くの検索ツールでは、日本語など単語と単語の 間にスペースのない言語を処理する際、バイグラム という手法を用いています。この手法ですと、索引のサイズが増大し、検索精度も低くなります。 これに対し、RBLは、高度な統計モデリングによって、各単語を正確に識別し抜き出すことができます。RBL からのトークン出力データ(分節データ)は、索引のサイズを小さくし、精度の高い、より的確な検索を実現します。

基本形出力

Lemmatization

ほとんどの検索エンジンは、単純に単語の最後を切り落として語幹としています。このような語幹出力では、無駄に再現性(どれだけヒットするか)を高くするだけで、適合性は低下します。RBLでは、語彙、文脈、および高度な形態素解析を使用して、正確な辞書形式(基本形)を返すことができます。基本形による索引は、すべての変化形を索引に取り込まずに済むので、小型の索引で精度の高い検索が実現できます。補助索引データ用に代替基本形を出力することもできます。

名詞句抽出

Noun Phrase Extraction

特定の名詞、特に固有名詞は、ひとつのエンティティとして出力するのが難しい場合があります。RBLは、名詞とその修飾語句をグループ化することができますので、ドキュメント・クラスタリングやコンセプト抽出に有効です。

品詞タグ

Parts of Speech Tagging

基本形出力の過程で、統計モデリングを用いて品詞を特定します。各トークンに付与される情報は、検索精度を向上させるのに役立ちます。

複合語の分解

Decompounding

RBLは、複合語を構成要素に分解し、要素ごとに索引することが可能です。これは複合語が頻出する言語で検索の精度を向上させる場合に特に有効です。

文の区切り

Sentence Detection
文の始めと終わりは、句読点の使用が不明瞭であっても自動的に識別されます。

Contact us about integrating Rosette Base Linguistics into your Cloudera application: 617 386 2090

 

[rb_sharing facebook=”true” twitter=”true” google=”true” pinterest=”true” width=”1/1″ el_position=”first last”]