Virginia Tech: EMBERS
スコットランド独立の住民投票があのように以前から予定されたものでなければ、スコットランドは今や独立国になっていたかもしれません。英国がスコットランドをかろうじて手放さずに済んだのは、英国政府がスコットランド独立に関する投票の 2 週間前に「自治拡大」をスコットランド人に約束したためとも言われています。世論調査では、2014 年 9 月 18 日の住民投票が行われるまでの数週間、賛成派と反対派は拮抗していました。
英国政府がこのように対応できたのは、状況を事前に把握していたからです。しかし、今回のように大規模で切迫したイベント(重大な出来事)の予定が発表されていて、これほどのリードタイムがあることはめったにありません。
公開ビッグデータを適切にマイニングして利用すれば、驚くべき見通しが得られ、近い将来起こりうる事態の予測分析をすることが可能です。
EMBERS プロジェクトは、約 2 年間、平均 7 日のリードタイムで、南米における暴動等を予測してきました。このプロジェクトは米国バージニア工科大学が主導しており、今注目のビッグデータの力が評判どおりに発揮された重要な成功例の 1 つです。公開ビッグデータを適切にマイニングして利用すれば、驚くべき見通しが得られ、近い将来起こりうる事態の予測分析をすることが可能です。
課題の発表
アラブの春(2011 年初頭からの中東における一連の民主化運動)の後で、米国国家情報長官室(ODNI)の政府分析官は、「このような重大な出来事を予測できただろうか」と問いかけました。この問いかけが発端となり、情報先端研究プロジェクト活動(IARPA)が Open Source Indicators (OSI) Program(公開指標(OSI)プログラム)という取り組みを開始しました。このプログラムでは「政治危機、人道的危機、集団暴力、暴動、集団移動、病気の発生、経済的不安定、資源不足、自然災害の対応などの重大な社会的出来事を予測/検出するために、公開データを継続的かつ自動的に分析する手法を開発する」という課題を応募者に課しました。簡単に言えば、「ニュースの先取り」です。
課題への挑戦
2012 年 4 月、バージニア工科大学のディスカバリー分析センター長のナレン・ラマクリシュナン博士が、学際的な産学連携チームを組織して、EMBERS(Early Model-Based Event Recognition using Surrogates:サロゲートを利用したモデルベースの早期事件認識)プロジェクトを立ち上げました。このプロジェクトではまず、南米における住民レベルの重要な出来事(暴動、選挙、病気の発生、国内政治危機)の予測に取り組みました。EMBERS は、情報を統合する仕組みというよりも、警告を自動的に生成して分析者が見つけた情報の解釈に集中できるようにすることで、このOSI プログラムの目的を達成しようとするものでした。
ラマクリシュナン博士は、パデュー大学での計算機科学の博士研究、バージニア工科大学での現教授職とディスカバリー分析センター長職など、ビッグデータの処理において 20 年を超える経験を有しています。ディスカバリー分析センターには、計算機科学、統計学、数学、電気工学、計算機工学の研究者が集まり、情報解析、持続可能性、電子医療記録におけるナレッジディスカバリーの問題に取り組んでいます。博士は、多数の学術誌に積極的に寄稿し、査読者も務めています。また、その優れた教育と研究に対する数多くの賞を受賞しています。
ラマクリシュナン博士のチームのアプローチは、人間とコンピューターのコラボレーションでした。
彼らは、対象分野の専門家(SME)の知識と、コンピューターパワーおよび自然言語処理とを組み合わせました。前者はモデルを作成して初期設定し、後者は膨大な公開ビックテキストを精査します。
必需品の不足に関する発言の増加を監視するモデルがセットアップされました。案の定、トイレットペーパー不足が抗議運動につながっていました。
一例を挙げると、ベネズエラでは、政府が物価を厳しく統制しているため、その構造から物資不足が発生することを SME が指摘しました。そのため、必需品の不足に関する発言の増加を監視するモデルがセットアップされました。案の定、トイレットペーパー不足が抗議運動につながっていました。
もう 1 つ例を挙げます。エクアドルは、国民投票でよく知られている国です。これは、過去 20 年間のさまざまな体制のため、大統領によって提案され、議会で否認された法律が住民投票に移行するからです。そのため、エクアドルでは、立法と国民投票を注意深く監視することが重要でした。SME は、こういった非常に局所的な国固有の問題をエンジニアに伝えて、より優れたモデルを設計できるようにしました。
最適なアルゴリズムの利用
EMBERS には敏捷性が必要であり、モデルを迅速にテストし、各反復で学習した内容を速やかに統合しなければならないことは、当初からラマクリシュナン博士には明らかでした。そのため、バージニア工科大学のチームは、すべてを予測しようとする単一のマスターアルゴリズムではなく、組み合わせのアプローチを採用しました。
医療ニュース、ツイート、政治ニュース、活動家ブログなどの各種コンテンツをさまざまなモジュールセットに入力します。各モジュールセットは、選挙、暴動、病気の発生などのそれぞれの重要な出来事の予測に特化しています。これにより、6 から 8 のアルゴリズムが作成され、それぞれが各事象分類の警告を出します。アルゴリズムごとにバイアスが異なり、また異なる組み合わせのデータとモデルを利用して、競合する予測が生成されます。
最終的に、マスターの「融合」モジュールが各種個別アルゴリズムの予測を確率的に組み合わせて、単一の最終的予測を生成します。例えば、アルゼンチンでは 6 つの内 2 つのアルゴリズムの精度が高く、一方、他のアルゴリズムはエルサルバドルの把握に適している場合などが考えられます。
融合モジュールは、結果に従って、各アルゴリズムの予測の重み付けを学習します。
ラマクリシュナン博士は次のように述べています。「融合エンジンは、複数の専門分析者からの情報をまとめあげるかのように、競合するモジュールからの各種予測を組み合わせます。単一の魔法のようなモデルですべてを行おうとしてどっちつかずになってしまうのではなく、この手法が、システムを改善し続ける最適な方法の 1 つであることが分かりました」
マスターの「融合」モジュールが各種個別アルゴリズムの予測を確率的に組み合わせて、単一の最終的予測を生成します。
ノイズからのシグナルの抽出:非構造化データの課題
ビッグデータの明らかな課題として、膨大なデータを調べて、役に立つ部分を検出する必要があります。役に立つ部分とは、予測をサポートする特定のパターンや全体像を形成する部分です。
次のような砂浜を想像してみてください。それぞれの砂粒がモザイクのタイルのようになっています。ただし、タイルの多くは、大きなバッグ(ニュース記事)と小さなバッグ(ツイート)の中に入れられています。「青い四角いガラス」と綺麗に識別できるバッグもあれば、バッグを開いて中身を取り出し、色、材質、形状などの基準に従って分類する必要があるものもあります。前者は、「構造化データ」、後者は「非構造化データ」と呼ばれるものです。
南米では、EMBERS の警告の 60% 以上は非構造化データから生成されています。35% はツイートなどのソーシャルメディアからであり、25% はニュース記事からです。残りの 40% は、過去データ、非常に構造化されたデータ(食品価格、物品価格、経済指標など)、その他のレポートなどが情報現となっています。
メッセージのデータ拡張:課題への対応
では、EMBERS はどのようにして、これらの情報のタイルすべてに予測モジュール用のラベル付けをしているのでしょうか。EMBERS の「メッセージのデータ拡張」ステップでは、Basis Technology のRosette® 言語処理プラットフォームを利用して非構造化データを構造化(処理)しています。Rosette は、バッグを開いて分類するコンポーネントで、テキストを拡張し、メタデータを適用して、処理したデータをプロセスの後続ステップに入力します。例えば、Rosette は Twitter のフィード、ニュースフィード、ブログを精査して、「スペイン語、ポルトガル語、英語、フランス語」や「名詞、動詞、形容詞」や「日時、人名、地名、組織名」といったカテゴリーに分類します。
追加のデータ拡張モジュールにより、Rosette の出力にさらに情報を追加できます。例えば、抽出した日付や時間(例えば、「el sábado próximo」(次の土曜日))を実際の日付に変換できます。あるいは、場所をジオコーダーに渡して地理座標に変換できます。1
南米では、EMBERS の警告の 60% 以上は非構造化データから生成されています。35% はツイートなどのソーシャルメディアからであり、25% はニュース記事からです。
すべての EMBERS モジュールが Rosette からのデータを利用しているわけではありませんが、利用しているモジュールではデータ拡張は必要不可欠です。各「タイル」にタグとラベルが付けられると、モジュールは、膨大なデータから必要な「タイル」を取得できるようになります。
当初から、Basis Technology のエンジニアはバージニア工科大学のチームと密に連携して、 Rosette の設定を行い、各予測モジュールのニーズに合わせて Rosette を微調整しました。
ラマクリシュナン博士は次のように述べています。「私たちのニーズを満たす上で Basis Technology の柔軟性の高さは非常に望ましいものでした。これは反復するプロセスであり、うまく行かないことがあるときは調整する必要があるからです。最初は、さまざまなデータのタイプを考慮するように Rosette にいくつもの変更を加えました。しかし、いったん出力が満足の行くものになると、Rosette は統合用の便利なブラックボックスとして機能するようになり、多様な言語と多様な言語処理機能がサポートされるようになりました」
Basis Technology の Vice President, Corporate Development and Federal Sales のビル・レイは次のように述べています。「この画期的なプロジェクトに参加できて光栄に思っております。弊社の Rosette 言語処理プラットフォームは非常に柔軟であるため、EMBERS プロジェクトのニーズに合うように調整することができました。また、このプロセスから新しい洞察が得られ、ベストプラクティスを共有できています」
EMBERS システムの稼働
EMBERS は、人手を介さずに毎日 24 時間休まずに稼働している完全自動システムで、1 日に 20GB 近くの公開データを取り込んでいます。データの取得先は、19,000 を超えるブログとニュースのフィード、ツイート、HealthMap の警告とレポート、ウィキペディアの編集、経済指標、世論調査、天気データ、Google インフルトレンド、さらには駐車場画像やオンラインレストラン予約などの非従来型データソースです。
EMBERS は、2012 年 11 月に運用を開始し、南米 20 カ国を対象に、重要な出来事を予測する「警告」を生成しています。
例えば、暴動の警告では、以下の情報が同時に提供されます。
- いつ:重要な出来事の発生が予想される日付
- どこで:市レベルの場所
- だれが:人口層
- なぜ:混乱の理由
- 確率:予想の信頼度
- 予測作成日:警告が生成された日付
語句やキーワードの柔軟な照合
警告には、将来の日時についての言及を検出することで生成されるものと、機械学習モデルによって生成されるものがあります。いずれの場合も、きめの細かい情報の抽出が鍵となります。
EMBERS は、人手を介さずに毎日 24 時間休まずに稼働している完全自動システムで、1 日に 20GB 近くの公開データを取り込んでいます。
例えば、ソーシャルメディアのメッセージ内の短い語句に抗議運動の呼び掛けが埋め込まれていて、重要な出来事が起こりうる日付、時刻、場所、重大さに関する重要な情報が含まれていることがあります。そのため、非構造化テキスト内の各単語の役割を認識することが非常に重要になります。
語句やキーワードの柔軟な照合を行うモジュールは、ソーシャルメディア内で類似したメッセージを探します。まず、Rosette 言語判別モジュールが各メッセージの言語を判別します。その後、Rosette 基本言語解析モジュールにて文章を意味のある単位に分かち書き書きをした後、各単語に品詞情報のタグを付けます。その構造に基づいて、EMBERS モジュールは、「chamar protesto(call protest)」を「chamar um protesto(call a protest)」や「chamada para um protesto(call for a protest)」と一致させることができます(冠詞等が異なるのみですべて「抗議運動の呼び掛け」という意味)。類似した言葉使いのメッセージをスクリーニングして日時を検出することもできます。将来の実行で使用するために、新しい語彙をRosetteの出力から検出するアルゴリズムによって、語句の辞書がシステマティックに拡張されます。
日時
日時を抽出して利用する機能が予測において主要な役割を果たすのは、驚くことではありません。メッセージのタイムスタンプなどの構造化されている日時情報もありますが、日時表現が非構造化テキストに含まれている場合もあります。そのような日時表現は、Rosette 固有表現抽出モジュールによって検出されます。その後、TIMEN モジュールが日時の記述を絶対値に変換します。例えば、「dentro de quince días(2 週間後)」を「05 de Octubre 2014(2014 年 10 月 5 日)」に変換します。
3 つのタイプの場所
EMBERS は、以下の 3 つのタイプの場所情報2を探し出します。
- 特定のメッセージまたはデータの発信元の場所
- そのデータで話題となっている場所
- 発言者の主要な所属先の場所
ツイートでは、一部の場所情報(例えば、Twitter のジオタグ)は構造化されていますが、 Twitter の非構造化メッセージ内に含まれている場所もあります (例えば、「#UnidadEnlaCalle MAÑANA protesta Jueves #16Oct a las 12:15 en la Calle Principal Briceno Iragorri, Caracas(#通りに集合 明日、抗議。木曜日 #10月16日 12:15、カラカス市のメインストリートのブリセニョ・イラゴリで)」)。
組織の名前に含まれている場所も、発信元や話題となっている場所のヒントになることがあります(例えば、「Roque Santa Cruz, jugador del Malaga FC visito hoy Santa Cruz en Chile.(マラガ CF の選手ロケ・サンタ・クルスが今日、チリのサンタクルスを訪れた)」というツイートの「Malaga FC(マラガ CF)」)。
固有表現抽出により、ツイートのテキストから話題となっている場所を検出できます。 Twitter のジオタグや Twitter の場所、ユーザープロファイル内のテキストフィールドなどの構造化された場所データが、データ拡張フェーズ3 で各メッセージに追加されます。
動作主体
Rosette 固有表現抽出モジュールによって抽出された人名と組織名によ、EMBERS モジュールは、重要人物に関する記述を検出できます。分析担当者が、モジュール用に重要人物(公人限定)と組織のリストを編纂します。固有表現抽出モジュールの結果を利用することで、単に単語と単語を突き合わせた場合よりもシステムの精度が上がります。
人名として使用される単語が、人物ではないものを表す可能性もあることを考慮する必要があります。
ゼロから 1 日 50 個の警告を生成できるようになるまでの
道のり
バージニア工科大学および 2 つの競合チームによる予測の成功度を評価するために、独立した第三者団体 MITRE が警告の精度を評価しました。当初から、MITRE は、新聞記事で暴動の報道を調べて、「グラウンドトゥルース(正解)」を作成する作業を行いました。MITRE チームは、各チームのモデルのトレーニングデータとして、また成功度を測定するための基準として使用されるゴールドスタンダードレポート(GSR)を生成しました。
2 年目には、EMBERS は、3.0 を十分に上回る予測を一貫して生成するようになりました。
EMBERS は、南米について、6 カ月足らずで (2012 年 11 月に) 警告を提供し始め、開始年の終わりには、ある程度の予測力を発揮していましたが、まだ全面的な成功と呼ぶには十分なレベルに達していませんでした。
IARPA の課題によって規定されている最低品質基準は、4 段階評価で 3.0 でした (4 が最高点)。1 年目の終わりに、EMBERS はこの最低品質スコアに近づきましたが、超えることはありませんでした。
EMBERS のプロジェクトマネージャーのクリス・ウォーカー氏によると、プロジェクト開始から約 18 カ月後に、警告生成を調整して最適化するための新しいアプローチが開発され、それによりパフォーマンスが大幅に改善しました。チームでは、警告の品質を推定して低品質と見なされる警告を自動的に抑止するように学習する抑止エンジンを開発しました。
警告を生成し始めてから 17 カ月が経った 2014 年 3 月には、EMBERS はニュースや競合チームに勝っていました。
2 年目には、EMBERS は、3.0 を十分に上回る予測を一貫して生成するようになりました。また、特に暴動に関するリードタイムが改善しました。抑止エンジンに加え2 つ目の成功要因は、予測に最大の効率性をもたらしたデータソースを判別し、この洞察を得るためにモデルの組み合わせを調整する方法を把握したことでした。例えば、OpenTable.com におけるレストラン予約のキャンセルはインフルエンザとの関連性が高く、またフラー病院の駐車場の衛星写真は病気の拡大に関連していました。
成果
警告を生成し始めてから 17 カ月が経った 2014 年 3 月には、EMBERS はニュースや競合チームに勝っていました。
- 10,000 を超える警告を提供
- 1 日約 40 から 50 の警告
- 2013 年夏の「ブラジルの春」における抗議運動を正確に予測(3 週間にわたって何百もの抗議運動
が発生) - 2014 年初頭のベネズエラにおける学生主導の抗議運動を正確に予測。EMBERS はベネズエラの抗議
運動が暴徒化することも正確に予測 - EMBERS は、3 つの基準で 2 年の測定基準目標を上回り、1 つの基準を満たし、1 つの基準でわずか
下回るという結果を達成
今後の EMBERS:中東など
南米で成功を収めて間もない 2014 年 6 月に、EMBERS チームは、中東における重要な出来事の予測に着手しました。この新しい地域では、中東の 7 カ国を対象にしましたが、コラボレーションの人的側面とコンピューターの側面の両方でこれまでとは異なる課題が生じました。
人的課題
中東において信頼性の高い警告を生成する鍵は、予測に対する文化的な問題の影響を把握することです。EMBERS チームは、南米では類似するものがない事柄についてモデル化しようとしています。例えば、南米の人々が不満を表す方法に関する知識は、中東ではほとんど役に立ちません。
ラマクリシュナン博士は次のように述べています。「中東は大きな 1 つの社会ですが、各国が異なる文化的、歴史的文脈を抱えており、そうした文脈をモデル化する必要があります。そのため、監視とモデル化の対象を理解する上で、対象分野の専門家が非常に重要になります。抗議運動がそれぞれの国で持つ意味を理解する必要があります。文化的文脈により、国ごとに異なる意味を持つ可能性があるためです」
言語学的課題
アラビア語を追加するために、EMBERS のテキスト処理コンポーネントを調整する必要がありました。
既存の地理位置情報ツールを利用するために、アラビア文字体系のアラビア語の場所表現をローマ字(A から Z)の文字体系に変換する必要があります。この問題を解決するために、EMBERS と連携する Basis Technology の解析スタックに Rosette 名称照合モジュールと Rosette 名称翻訳モジュールを追加しました。
アラビア語の単語や語句では、方言によって意味が異なるものがあり、また一般名詞と固有名詞の綴りが同一であることがあるため、地理位置情報を表す単語を正しく変換するのは困難です。
1 つのアラビア語の単語が、文脈によって「2 人のおじ」であったり「アンマン」(ヨルダンの首都)であったりします。アラビア語にはさらに独自の特徴があります。ソーシャルメディアのユーザーは、アラビージー(アラビア文字の代わりに A から Z のローマ字と数字を使用して書かれたアラビア語)で記述することがあります。自然言語処理ソフトウェアでアラビージーを解析する前に、標準のアラビア語文字体系に変換しておく必要があります。
多量のアラビア語のソーシャルメディアデータがアラビージーで記述されている場合でも、Rosette を利用することで、アラビージーを標準アラビア文字体系に変換するという非常にやっかいな問題を解決できます。
3 Ramakrishnan, Naren et al, “‘Beating the News’ with EMBERS: Forecasting Civil Unrest using Open Source Indicators” KDD ‘14 August 24-27, 2014