ブログ


自然言語処理についてのインタビュー

2018年 9月 19日

テキストベースのNLP(自然言語処理)と深層学習の仕組み、そして、それがビジネスに及ぼす影響について解説します。企業の保有するテキストデータの分析や顧客サービスなどの分野におけるNLP利用の可能性を述べた後、ニューラルネットの導入で著しい変貌を遂げた最近のNLPについて説明するとともに、業務に適用する際に留意すべき点についても言及しています。

Read More

最も効果的なエンティティ抽出テクニック

2018年 8月 24日

エンティティの抽出はタイプによって最適なアプローチが異なります。最良のエンティティ抽出ソフトウェアは複数の手法(統計モデルまたはニューラルネットワーク、完全一致、パターンマッチ)を組み合わせて様々なタイプのエンティティに対応します。そして、知識ベースに基づいて、同じ名前をもつ複数のエンティティを区別したり、複数の名前で参照されるエンティティを同一のものと認識する機能も備えています。

Read More

重要なエンティティだけに注目

2018年 2月 8日

雑多な内容が盛り込まれているウェブ記事から最も重要な情報を見つけるにはエンティティの順位付けが不可欠です。Rosette API は、エンティティ(人物、組織、場所)が著名なものであれば Wikidata QIDにリンクし、そのリンクの信頼度スコア[0.0-1.0] を返します。さらに ver.1.8 からは、抽出された個々のエンティティと本文の主題との関連度を0/1で示す重要性スコアを返します。これら2つのスコアから注目すべきエンティティを判断でき、重要で正確な情報だけをフィルタリングできます。

Read More

語彙比較とワードクラウド生成のスクリプト

さまざまなテキストの語彙を分析して比較したり視覚化することは、データのクレンジングや著者の識別や検証に役立ちます。語彙の比較を手軽に体験していただけるように、Rosette APIコミュニティチームは、言語分析による、語彙比較とワードクラウド生成のPythonスクリプトを作成しました。Githubで提供していますので、実際に試してみてください。

Read More

名前のファジー照合技術の概要

2017年 12月 26日

表記のバリエーションに対応した名前照合の手法として、共通鍵方式、リスト方式、編集距離方式、統計的類似度方式、単語埋込方式について、その概要と長所短所を解説します。何れの方式もそれぞれ特定の課題を解決するもので、どのようなバリエーションにも対処できる一般的な照合手法はありません。優れた名前照合ソフトウェアは複数の方式を組み合わせて使用しています。

Read More

電子医療データの活用を支援する患者名のファジー照合

2017年 9月 29日

データの安全性に対する懸念から医療ITの進展は遅れがちですが、医療データの電子化、共有には大きなメリットがあります。2014年には米保健福祉省が健康情報交換システム(HIE)を柱とする医療ITインフラの10年ビジョンを発表しました。HIEシステムの重要課題は患者のマッチングで、その信頼性を左右するのが患者名の照合です。ファジー人名照合は患者マッチングの精度を向上させ、システムの利便性とともにデータの安全性にも寄与します。

Read More

慌てずに、個人情報は守られています

2017年 9月 3日

組織に損害を与えるような情報漏えいを防ぐために、Rosette API では、個人を特定できる情報をドキュメント内で伏せ字にして、この情報を安全に保管・共有できるようにする「個人識別情報のマスキング」 機能を実装しています。

Read More

Rosette API、アラビア語チャットをサポート

2017年 6月 26日

アラビア語チャットでは、”Arabizi”と呼ばれるローマ字によるアラビア語表記がよく用いられます。Arabiziは進化を続けながら急速に広まる一方、地域による方言も様々です。Rosette API は、統計モデルに基づく音訳によって Arabiziテキストを標準のアラビア語のスクリプトに変換します。自動学習で統計モデルを定期的に更新しているので、常に最新のチャットメッセージに対応できます。また、メッセージの方言から書き手の出身国を識別することも可能です。

Read More

Rosette API 1.7 リリース

2017年 6月 15日

Rosette API の新バージョンをリリースしました。本リリースで追加された機能は、アラビア語感情分析(ベータ版)、信頼度スコア付エンティティ抽出、代名詞にも対応したエンティティの関係抽出、Arabzi(英字表記のアラビア語)から通常のアラビア語への翻訳、特殊な要素(絵文字、顔文字、ハッシュタグ、URL、電子メールアドレスなど)にも対応した形態素解析(トークン化)です。

Read More

Rosettepedia: エンティティ抽出機能拡張スクリプト

Rosetteはテキストデータから18タイプのエンティティを抽出できます。このエンティティ抽出機能を発展させ、抽出された個々のエンティティに関する情報を同時に得られるスクリプトRosettepedia を、このほど Githubに公開しました。
Rosettepediaは Rosetteのエンティティ抽出とエンティティ関係付けの機能を使用して、テキストのエンティティを抽出し、関連するWikipediaの情報とともに出力します。

Read More