Rosetteでソーシャルメディアモニタリング
Rosetteは40ヶ国語以上に対応
Facebook、Twitter など、ソーシャルメディアの勢いは留まるところを知らず、世界中の人々が、いろいろな言語でオンライン情報を交換し合っています。これらの、世界に広まっているソーシャルメディアサービスの情報を解析するために、多くのアプリケーションが開発されていますが、ベイシス・テクノロジーのRosette®言語処理プラットフォームは、40ヶ国語以上の言語に対応し、これらソーシャルメディアの解析に役立っています。Rosetteは各種ソーシャルメディアアプリケーションに簡単に実装でき、FacebookやTwitter、LinkedInなどのソーシャルメディアの情報解析を実現します。
Rosette言語処理プラットフォーム(薄緑の部分)は、入力情報の言語判別、文章解析、固有表現(キーワード)抽出を行ない、ソーシャルメディアモニタリングツールによる、的確な情報解析を支援します。
10年以上の経験に裏打ちされた言語処理技術
ベイシス・テクノロジーの言語処理技術は、業界標準の多言語・自然言語の処理技術として、Google、Yahoo!、Microsoft Bing、Oracle Endecaなどの大手検索エンジン等にて早くから採用されています。ソーシャルメディアの 新しい要求に合わせ、さらに言語コンポーネントを改良しました。
ソーシャルメディア情報の言語判別
ソーシャルメディア情報の解析には、まず言語判別が必要ですが、ユーザーの位置情報ベースの言語設定や、ユーザー指定の言語情報には誤りが多いのが実情です。そんな問題を解決するのが弊社のRosette言語判別モジュールです。55カ国の言語に対応し、入力言語を高い精度で素早く判別します。インターネット上に膨大にあるブログや製品レビュー、また1日に1億4千万件にも達するツイートを取得のTwitter Firehoseの解析にも十分耐えうる性能となっています。。
評判分析を支援
評判分析を行なうには、文章中の一つ一つの単語を解析しなければなりません。日本語をはじめ、英語、ドイツ語、フランス語、スペイン語、アラビア語などの場合、Rosette言語処理プラットフォームは以下の処理を行ないます:
- 品詞出力
- 見出し語出力(辞書形)
- 文節の検出
- 名詞句の抽出
*その他の対応言語および詳細は、Rosette言語処理プラットフォームのパンフレット(対応機能一覧表含む)をご覧ください。
キーワード抽出: メタデータでさらに情報を絞り込み
Rosette固有表現(キーワード)抽出モジュールは、ソーシャルメディアの投稿や会話から、人物、場所、会社、製品名などのキーワードを抽出しメタデータを生成します。このメタデータをもとに、ソーシャルメディアモニタリングアプリケーションは、情報をフィルタリングし、すばやく的確な情報を得ることができます。Rosette 固有表現抽出モジュールは、17カ国以上の言語に対応し、18種類の固有表現タイプを抽出します。固有表現タイプのカスタマイズも可能です。
「ソーシャルメディアで使われる言語の大半が英語以外という現状を踏まえ、英語以外の言語のトピックを解析することは、弊社の顧客にとって、そのビジネスやマーケティング戦略を練る上で欠かせません。Basis Technologyの言語解析技術は、そのニーズに即座に応えてくれるもので、優れた精度と高い処理能力のRosetteを採用したことで、我々の技術を世界中の言語に展開できるようになりました。」— スティーブ・ウィンターズ(NetBase社、技術部門長)
固有表現抽出で評判分析を支援
近年の研究では、感情は文書そのものよりも、文書内の固有表現に現れるとされています。文書の中で言及されるブランドや製品にユーザーの嗜好がよりはっきりと現れるためです。Rosette言語処理プラットフォームは、日本語、朝鮮語、中国語をはじめとするアジア言語、欧米言語、中東言語に対し精度の高い固有表現抽出を行い、評判分析を支援します。
ソーシャルメディアの検索性を向上
検索索引付けやクエリー時に言語処理を適用してより的確な検索結果を返すことができます。弊社Rosette の形態素解析処理は各トークンの見出し語(辞書形)を出力し、それを索引データに追加します。
- トークン: “speaking”、“speaking”、“spoke”
- 見出し語: “speak”
他の手法、例えばn-gram 方式などで、トークンの語幹を索引データにすると、以下のように意味の異なる単語も同じ語として検索され、無関係な検索結果が返されることになります。
- トークン: “severed”、 “several”
- 語幹: “sever”
言語的な違いを認識した、形態素解析による手法は、大手エンタープライズ・サーチやウェブサーチエンジンで標準的に用いられています。
製品名や人名のトラッキング
ソーシャルメディアのデータは、くだけた文体が多く、またスペルの間違いも散見されます。製品やブランドの評価を正しく知る上で、表記のゆれに対応することが重要となります。名称照合モジュールは、例えば「Madonna」「Madonnna Ciccone」「Madona」と照合することができます。またスペルミス、表記ゆれなどにも対応し、欠けている名前の要素を補填することも可能です。
「Steve Jobs」に対し、アラビア語表記を含む表記候補を出力しています。