ブログ


Semantic Similarity による重複文書の検出と多言語横断検索

2019年 2月 20日

Semantic Vectors (意味ベクトル) は、語句や文書をその意味空間上のベクトル値に変換します。意味が類似しているほど数値的に近いベクトル値に変換されるので、ベクトル値をひかくすることで重複する文書を検出できます。また、異なる言語間でも類似した意味の語句は、ベクトル値の近似度が高くなります。Similar Terms (類似用語検出) は、ある語句に対し意味的類似性が高い語句を返します。Similar Termを利用すれば、クエリの語句を他の言語の類似した用語へ展開できるので、複数の言語の文書を横断的に検索できます。

Read More

CEO Carl Hoffmanとgengo社VPのCharly Walter氏のインタビュー

2019年 1月 13日

テキストベースのNLP(自然言語処理)と深層学習の仕組み、そして、それがビジネスに及ぼす影響について解説します。企業が保有するテキストデータの分析や顧客サービスなどの分野におけるNLP利用の可能性を述べた後、ニューラルネットの導入で著しい変貌を遂げた最近のNLPについて説明するとともに、業務に適用する際に留意すべき点についても言及しています。

Read More

Webinar: Deep Learning’s Impact on NLP: In 30 Minutes

2018年 12月 12日

Webinar: Deep Learning’s […]

Read More

自然言語処理についてのインタビュー

2018年 9月 19日

テキストベースのNLP(自然言語処理)と深層学習の仕組み、そして、それがビジネスに及ぼす影響について解説します。企業の保有するテキストデータの分析や顧客サービスなどの分野におけるNLP利用の可能性を述べた後、ニューラルネットの導入で著しい変貌を遂げた最近のNLPについて説明するとともに、業務に適用する際に留意すべき点についても言及しています。

Read More

最も効果的なエンティティ抽出テクニック

2018年 8月 24日

エンティティの抽出はタイプによって最適なアプローチが異なります。最良のエンティティ抽出ソフトウェアは複数の手法(統計モデルまたはニューラルネットワーク、完全一致、パターンマッチ)を組み合わせて様々なタイプのエンティティに対応します。そして、知識ベースに基づいて、同じ名前をもつ複数のエンティティを区別したり、複数の名前で参照されるエンティティを同一のものと認識する機能も備えています。

Read More

重要なエンティティだけに注目

2018年 2月 8日

雑多な内容が盛り込まれているウェブ記事から最も重要な情報を見つけるにはエンティティの順位付けが不可欠です。Rosette API は、エンティティ(人物、組織、場所)が著名なものであれば Wikidata QIDにリンクし、そのリンクの信頼度スコア[0.0-1.0] を返します。さらに ver.1.8 からは、抽出された個々のエンティティと本文の主題との関連度を0/1で示す重要性スコアを返します。これら2つのスコアから注目すべきエンティティを判断でき、重要で正確な情報だけをフィルタリングできます。

Read More

語彙比較とワードクラウド生成のスクリプト

さまざまなテキストの語彙を分析して比較したり視覚化することは、データのクレンジングや著者の識別や検証に役立ちます。語彙の比較を手軽に体験していただけるように、Rosette APIコミュニティチームは、言語分析による、語彙比較とワードクラウド生成のPythonスクリプトを作成しました。Githubで提供していますので、実際に試してみてください。

Read More

名前のファジー照合技術の概要

2017年 12月 26日

表記のバリエーションに対応した名前照合の手法として、共通鍵方式、リスト方式、編集距離方式、統計的類似度方式、単語埋込方式について、その概要と長所短所を解説します。何れの方式もそれぞれ特定の課題を解決するもので、どのようなバリエーションにも対処できる一般的な照合手法はありません。優れた名前照合ソフトウェアは複数の方式を組み合わせて使用しています。

Read More

電子医療データの活用を支援する患者名のファジー照合

2017年 9月 29日

データの安全性に対する懸念から医療ITの進展は遅れがちですが、医療データの電子化、共有には大きなメリットがあります。2014年には米保健福祉省が健康情報交換システム(HIE)を柱とする医療ITインフラの10年ビジョンを発表しました。HIEシステムの重要課題は患者のマッチングで、その信頼性を左右するのが患者名の照合です。ファジー人名照合は患者マッチングの精度を向上させ、システムの利便性とともにデータの安全性にも寄与します。

Read More

慌てずに、個人情報は守られています

2017年 9月 3日

組織に損害を与えるような情報漏えいを防ぐために、Rosette API では、個人を特定できる情報をドキュメント内で伏せ字にして、この情報を安全に保管・共有できるようにする「個人識別情報のマスキング」 機能を実装しています。

Read More