ブログ

成功へのレシピ:AIによるAML規制への対応

2022年1月12日

AML(アンチマネーロンダリング)規制は継続的に強化され、金融機関に大きな影響を与えています。AMLとKYC(Know Your Customer)規制の核心となるのは、新規および既存の顧客を、世界中の規制機関が作成した最新のウォッチリストと照合しなくてはいけないという義務です。個人の名前とそのバリエーションをすべて関連付けることは、簡単な作業ではなく、慎重に検討し、正確に行わなければならないものです。

Read More

ホワイトペーパー: 概念と意味による言語横断検索

2019年9月20日

1つのクエリーで様々な言語の文書を一度に検索できる言語横断検索は、最近まで機械翻訳ベースのアプローチが一般的でしたが、ここでは、もっとよい結果の得られる、テキストの分散表現(言葉の意味をベクトルに変換する自然言語処理技術)を利用した意味ベースのアプローチを探ります。パート1でこれら2つのアプローチを比較した後、パート2で意味ベースの言語横断検索の実装について説明し、システム運用上の課題を検討します。また、人名、地名など特殊なクエリーの言語横断検索についても考察します。

Read More

Entity Extraction と Entity Resolution の違いは?

2019年8月9日

Eintiy Extraction (エンティティ抽出) はテキストの中の人名、地名などのキーワード(エンティティ)を抽出します。Entity Resolution (エンティティ解決) はキーワードを実際の人物や場所に結び付けます。キーワードの前後の文脈から、同じ名前の二人の人物がどちらであるかを識別したり、代名詞や役職名が意味する人物を特定できます。Entity Resolution は、エンティティに注目したテキスト分析の決め手となります。

Read More

Semantic Similarity による重複文書の検出と多言語横断検索

2019年2月20日

Semantic Vectors (意味ベクトル) は、語句や文書をその意味空間上のベクトル値に変換します。意味が類似しているほど数値的に近いベクトル値に変換されるので、ベクトル値をひかくすることで重複する文書を検出できます。また、異なる言語間でも類似した意味の語句は、ベクトル値の近似度が高くなります。Similar Terms (類似用語検出) は、ある語句に対し意味的類似性が高い語句を返します。Similar Termを利用すれば、クエリの語句を他の言語の類似した用語へ展開できるので、複数の言語の文書を横断的に検索できます。

Read More

CEO Carl Hoffmanとgengo社VPのCharly Walter氏のインタビュー

2019年1月13日

テキストベースのNLP(自然言語処理)と深層学習の仕組み、そして、それがビジネスに及ぼす影響について解説します。企業が保有するテキストデータの分析や顧客サービスなどの分野におけるNLP利用の可能性を述べた後、ニューラルネットの導入で著しい変貌を遂げた最近のNLPについて説明するとともに、業務に適用する際に留意すべき点についても言及しています。

Read More

Webinar: Deep Learning’s Impact on NLP: In 30 Minutes

2018年12月12日

Webinar: Deep Learning’s […]

Read More

自然言語処理についてのインタビュー

2018年9月19日

テキストベースのNLP(自然言語処理)と深層学習の仕組み、そして、それがビジネスに及ぼす影響について解説します。企業の保有するテキストデータの分析や顧客サービスなどの分野におけるNLP利用の可能性を述べた後、ニューラルネットの導入で著しい変貌を遂げた最近のNLPについて説明するとともに、業務に適用する際に留意すべき点についても言及しています。

Read More

最も効果的なエンティティ抽出テクニック

2018年8月24日

エンティティの抽出はタイプによって最適なアプローチが異なります。最良のエンティティ抽出ソフトウェアは複数の手法(統計モデルまたはニューラルネットワーク、完全一致、パターンマッチ)を組み合わせて様々なタイプのエンティティに対応します。そして、知識ベースに基づいて、同じ名前をもつ複数のエンティティを区別したり、複数の名前で参照されるエンティティを同一のものと認識する機能も備えています。

Read More

重要なエンティティだけに注目

2018年2月8日

雑多な内容が盛り込まれているウェブ記事から最も重要な情報を見つけるにはエンティティの順位付けが不可欠です。Rosette API は、エンティティ(人物、組織、場所)が著名なものであれば Wikidata QIDにリンクし、そのリンクの信頼度スコア[0.0-1.0] を返します。さらに ver.1.8 からは、抽出された個々のエンティティと本文の主題との関連度を0/1で示す重要性スコアを返します。これら2つのスコアから注目すべきエンティティを判断でき、重要で正確な情報だけをフィルタリングできます。

Read More

語彙比較とワードクラウド生成のスクリプト

さまざまなテキストの語彙を分析して比較したり視覚化することは、データのクレンジングや著者の識別や検証に役立ちます。語彙の比較を手軽に体験していただけるように、Rosette APIコミュニティチームは、言語分析による、語彙比較とワードクラウド生成のPythonスクリプトを作成しました。Githubで提供していますので、実際に試してみてください。

Read More