Facebook、Twitter など、ソーシャルメディアの勢いは留まるところを知らず、世界中の人々が、いろいろな言語でオンライン情報を交換し合っています。これらの、世界に広まっているソーシャルメディアサービスの情報を解析するために、多くのアプリケーションが開発されていますが、ベイシス・テクノロジーのRosette®言語処理プラットフォームは、40ヶ国語以上の言語に対応し、これらソーシャルメディアの解析に役立っています。Rosetteは各種ソーシャルメディアアプリケーションに簡単に実装でき、FacebookやTwitter、LinkedInなどのソーシャルメディアの情報解析を実現します。
Rosette言語処理プラットフォーム(薄緑の部分)は、入力情報の言語判別、文章解析、固有表現(キーワード)抽出を行ない、ソーシャルメディアモニタリングツールによる、的確な情報解析を支援します。
拡大するにはこちらをクリックしてください。
ベイシス・テクノロジーの言語処理技術は、業界標準の多言語・自然言語の処理技術として、Google、Yahoo!、Microsoft Bing、Oracle Endecaなどの大手検索エンジン等にて早くから採用されています。ソーシャルメディアの 新しい要求に合わせ、さらに言語コンポーネントを改良しました。
ソーシャルメディア情報の解析には、まず言語判別が必要ですが、ユーザーの位置情報ベースの言語設定や、ユーザー指定の言語情報には誤りが多いのが実情です。そんな問題を解決するのが弊社のRosette言語・文字コード判別システムです。55カ国の言語に対応し、入力言語を高い精度で素早く判別します。インターネット上に膨大にあるブログや製品レビュー、また1日に1億4千万件にも達するツイートを取得のTwitter Firehoseの解析にも十分耐えうる性能となっています。。
評判分析を行なうには、文章中の一つ一つの単語を解析しなければなりません。日本語をはじめ、英語、ドイツ語、フランス語、スペイン語、アラビア語などの場合、Rosette言語処理プラットフォームは以下の処理を行ないます:
*その他の対応言語および詳細は、Rosette言語処理プラットフォームのデータシート(対応機能一覧表含む)をご覧ください。
Rosette固有表現(キーワード)抽出システムは、ソーシャルメディアの投稿や会話から、人物、場所、会社、製品名などのキーワードを抽出しメタデータを生成します。このメタデータをもとに、ソーシャルメディアモニタリングアプリケーションは、情報をフィルタリングし、すばやく的確な情報を得ることができます。Rosette 固有表現抽出システムは、12カ国以上の言語に対応し、18種類の固有表現タイプを抽出します。固有表現タイプのカスタマイズも可能です。
近年の研究では、感情は文書そのものよりも、文書内の固有表現(キーワード)に現れるとされています。抽出されたキーワードの中に、ブランドや製品に対するユーザーの嗜好がよりはっきりと現れるためです。Rosette言語処理プラットフォームは、日本語、朝鮮語、中国語をはじめとするアジア言語、欧米言語、中東言語に対し精度の高い固有表現抽出を行い、評判分析を支援します。
検索索引付けやクエリー時に言語処理を適用してより的確な検索結果を返すことができます。弊社Rosette の形態素解析処理は各トークンの見出し語(辞書形)を出力し、それを索引データに追加します。
他の手法、例えばn-gram 方式などで、トークンの語幹を索引データにすると、以下のように意味の異なる単語も同じ語として検索され、無関係な検索結果が返されることになります。
言語的な違いを認識した、形態素解析による手法は、大手エンタープライズ・サーチやウェブサーチエンジンで標準的に用いられています。
ソーシャルメディアのデータは、くだけた文体が多く、またスペルの間違いも散見されます。製品やブランドの評価を正しく知る上で、表記のゆれに対応することが重要となります。人名・地名照合システムは、例えば「Madonna」「Madonnna Ciccone」「Madona」と照合することができます。またスペルミス、表記ゆれなどにも対応し、欠けている名前の要素を補填することも可能です。
「Steve Jobs」に対し、アラビア語表記を含む表記候補を出力しています。
Rosetteがソーシャルメディア解析でどのように使用されているかについては、NetBaseのプレスリリースもご参照ください。
弊社では、各種製品の評価版をご用意しておりますので、ご興味のある方は下記よりぜひお申し込みください。 評価版お申し込みフォーム