「NSAの収集態勢と協力する企業・国々」では、NSAによるシギント収集態勢の全体像を俯瞰しました。それでは、NSAは世界中で収集した膨大なデータをどのように保管し分析しているのでしょうか。 今回は、NSAの取得データの保管分析で最も重要なXKeyscoreを取り上げます。XKeyscoreとは、収集したシギント・データの一次記憶装置であり、また記録したデータの検索分析システムです。収集した膨大なデータを一時保管し、あたかも「グーグル」を使うように、分析官が必要とするデータを検索できるシステムです。「NSAのグーグル」とも呼ばれています。 なお、NSAの情報を漏洩したエドワード・スノーデンが、2013年6月のインタビューで「メールアドレスが分かれば、その個人のメールを読むことができる。」と語っていますが、それはこのXKeyscoreを念頭に置いたものです。
1 NSAの従来データベースとXKeyscoreの必要性
NSAは世界中に配置したシギント・プラットフォームから日々膨大なデータを収集しています。そして、NSAは必要に応じて様々なデータベースを構築してきました。 2013年頃、NSAの基本的なデータベースには次の4つがありました。〇「マリーナ」(デジタル通信メタデータ)、〇「ピンウェイル」(デジタル通信コンテンツ)、〇「メインウェイ」(電話メタデータ)、〇「ニュークレオン」(電話ボイス・コンテンツ)です。 これらは、それぞれのデータベースの目的に応じて、NSAが収集する膨大なデータの中から、有用情報(データ)を保管し利用するものでした。つまり、メールアドレスやIPアドレス、あるいは電話番号などの指標から有用性を判断して保管していたのです。一方、データ入手時点で有用と判定されない膨大なデータは、そのまま廃棄されていたのです。しかし、NSAは膨大なデータにアクセスしていますから、保管されないデータの中にも、有用情報を含むデータは多量にありました。有用情報を含む可能性のあるデータの中で、保管されていたデータは5%にも満たなかったそうです。そこで、従来なら廃棄されていた膨大なデータを一時保管して、この中から有用なデータを抽出し利用する目的で、XKeyscoreが開発されました。
2 XKeyscoreの概要とデータ源
XKeyscoreとは、NSAが様々な方法によって大量に取得するデータの一次記憶装置であり、また、この一次記憶装置から必要なデータを検索抽出し分析するため検索分析システムです。 XKeyscoreの一次記憶装置は、2013年頃では、世界中の約150ヶ所の拠点に配置されたサーバー700以上で構成されていました。サーバーの主な配置場所について、NSAの或る漏洩資料では、特別資料源作戦(SSO)の拠点、外国衛星通信の傍受拠点、特別収集サービス(SCS)の3種類が挙げられていました。
NSAの主な収集プラットフォームには、次の9つが挙げられます。①「プリズム」計画、②通信基幹回線からの収集、③外国通信衛星の傍受、④特別収集サービス(SCS)、⑤コンピュータ網工作(CNE)、⑥シギント衛星・機上収集(Overhead)、⑦海軍艦艇・潜水艦、⑧従来型収集、⑨秘匿シギント活動、です。 これらの内、①の「プリズム」計画は、米国内の民間データセンターから、特定の要求データを入手するもので、入手するデータは基本的に全て有用データです。そこで、取得データは、XKeyscoreには記録されず、「ピンウェイル」などの個別のデータベースに直接記録されます。また、⑤のコンピュータ網工作で収集したデータも、特定のネットワークを標的にしてハッキングして収集した情報であるため、データの特定性と有用性が高く、これもXKeyscoreには記録されず、特定のデータベースに記録されると考えられます。更に、⑦⑧⑨は入手データの性格から判断して、XKeyscoreに記録するには適当でないと判断されます。従って、残りは②③④⑥であり、この内データ量が多いのは②③④と推定できるので、漏洩資料記載のXKeyscoreデータサーバーの設置場所の記述と一致します。
世界中の特別収集サービスSCSの収集拠点は約80ヶ所、外国衛星通信の傍受拠点は(SCSとの重複を除くと)10ヶ所程度、合わせて約90ヶ所であり、XKeyscoreサーバーの設置場所の総数が150か所ですから、残りの約60ヶ所は概ね通信基幹回線からの収集拠点と推定できます。 これら②③④の資料源における収集の特徴は、データを大量に取得していることであり、大量取得したデータをそれぞれの収集拠点において一次記憶装置に記録して、これらのデータの中から必要なデータを検索抽出する構造となっています。そして、この検索作業のためXKeyscoreウェブサーバーが構築されており、分析官はこのウェブサーバーを活用して、あたかも「グーグル」で検索するように、必要なデータを世界中の一次記憶装置700台以上から検索抽出できるようになっているわけです。
因みに、以上の概要は、2013年のスノーデン漏洩資料によるものですから、現在は、XKeyscoreの設置個所やサーバー数も大きく増加している可能性があります。
3 XKeyscoreによるデータ収集と記録の方法
XKeyscoreによるデータの収集と記録の方法ですが、各収集拠点では、アクセスできるデータの中から、資料価値が無いと考えられる形式のデータを先ず自動的に削除します。インターネット回線の通信では、音楽や映画のダウンロードなどデータ量は極めて多いものの、シギント機関にとって情報価値は殆どないものが相当量を占めています。そこで、Massive Volume Reductionと呼ばれていますが、これらを排除して、その他の有用情報を含む可能性のあるデータを一括して収集記録するのです。一括収集されたインターネット上のデータは、バラバラなパケットに分かれていますので、元のEメールなり、VoIPなりの形式に復元し、メタデータの索引を付して記録されます。なお、これらのデータ中、既に分析官からデータ要求がなされいてデータ要求リストに登録されているEメールアドレス、IPアドレス、物理(MAC)アドレスなどの特定の通信データは、自動的に選別されてデータ要求者にも提供されるようになっています。
一次記憶装置は、所謂「ローリング・バッファ」方式を取っており、収集拠点毎にサーバーの記憶容量の範囲内で、常に、新しいデータで古いデータを上書きしつつ、最大量のデータを保管しています。データの保存目標期間は、2013年時点ではコンテンツ・データで3日間、メタデータで30日間です。但し、実際の保存期間は、拠点ごとのサーバーの容量によって異なり、コンテンツ・データが5日間保存されている拠点もあれば、24時間しか保管できない拠点もあったようです。
このようにして収集保管されているデータ量は、2007年のNSA内部資料によれば、当時、通話で8500億件とインターネット通信1500億件の記録が保管されており、毎日10~20億件の新規データが追加されていたといいます。当然のことながら、現在では保管データ量は、飛躍的に増加していることでしょう。
4 検索・分析方法
XKeyscoreを使ったデータの検索抽出と分析方法は極めて有効であり、漏洩資料によれば次のような使い方があります。
(1)「ストロング・セレクター」のある場合: 標的通信を容易に特定できる情報、即ちメールアドレス、IPアドレス、物理(MAC)アドレスや電話番号などが判明している場合には、これによってXKeyscoreウェブサーバーを使用して検索すれば、対象者がインターネットで行う殆どの活動に関するデータを取得できます。例えば、対象者のEメールやウェブメール、オンラインでのチャット、VoIPによる通話、ファイルの送受信、ウェブサイトの閲覧履歴、ネットでサーチした検索単語、グーグルマップの検索利用状況などのデータを取得できます。つまり、標的としている対象者のインターネット上の活動が殆ど把握できるということです。ウェブサイトの閲覧履歴、ネットでサーチした検索単語、グーグルマップの検索利用状況まで、把握できることが注目されます。 また、標的がインターネットで行っている活動を、「リアル・タイム」で傍受して監視することも可能です。
(2)「ソフト・セレクター」しかない場合: しかしながら、標的とする対象者を特定できるデータを保有している場合は、必ずしも多くはありません。その場合でも様々な検索分析を活用することにより、ウェブ空間における特異な活動を把握できるのがXKeyscoreの利点です。特にメタデータの検索分析により、閲覧すべきコンテンツ・データを絞り込むことができます。それによって、直接的に情報成果を得ること、或は標的を特定する「ストロング・セレクター」を入手できることもあります。
データの抽出分析方法については、2008年内部資料で説明されており、その内の幾つかを紹介します。
〇 イランからの暗号化ワード文書通信リスト、或は、イランに於けるPGP(Pretty Good Privacy)暗号の通信リストを、検索抽出する。暗号化通信をする者にはそれなりの理由がある筈ですから、通信リストを分析して情報価値のありそうな標的或いは個別通信を抽出することができるのです。
〇 標的(対象者)はドイツ語を話すが現在パキスタンにいるという場合に、パキスタンでのドイツ語通信リストを検索抽出し、その中から情報価値のありそうな標的或いは個別通信を抽出分析する。つまり、ドイツで育ったイスラム教徒の中にはイスラム過激思想に傾倒して、パキスタンで「ジハード教育」を受ける事例があり、そのような可能性のあるドイツ語話者を発見探知しようとするものです。
〇 テロリストがグーグルマップなどのウェブ検索を利用して、攻撃対象の調査活動やテロ準備をする場合に、グーグルマップやグーグルアースの検索利用状況(利用状況のテロリスト的特徴)から、テロリストを検索発見する。
〇 テロリストが作成した文書ファイルがインターネットで世界中に広まっている場合に、その作成者と作成場所を特定する。
〇 特定国に於いてデータ収集可能な端末、システムを把握する。NSAのハッカー集団であるTAOグループが作成したデータがXKeyscoreに搭載されており、このようなことが可能だそうです。
〇 英語、中国語、アラビア語の通信に関しては、通信内容中のキーワードによる通信の検索抽出が可能である。例えば、オサマ・ビン・ラデンに言及した全ての通信を検索して抽出することが出来るのです。2013年当時は、このキーワード検索は、英語、中国語、アラビア語の3言語でしたが、現在では当然のことながら、多くの言語でキーワード検索ができるようになっていると考えられます。
〇 特定の単語でウェブ検索をした者や特定のウェブサイトを閲覧した者を検索抽出する。
以上のような多彩な活用方法があるのです。そして、ここに紹介したのは検索分析手法の一部であって、他の分析手法もあります。XKeyscoreは極めて有用なシステムなのです。
以上、主として2013年スノーデン漏洩情報に基づいて、XKeyscoreについて説明しましたが、それから10年以上の年月が経っています。XKeyscoreはAIの発展を受けて、更に進化しているものと考えられます。