こんにちは、LayerXのPrivcyTech事業部でリードエンジニアをしている恩田(@cipepser)です。本ブログではプライバシー保護技術としても注目を集めている合成データを紹介します。
合成データの概要
合成データは現実世界のデータをもとに生成される人工的なデータです。アルゴリズムに従って生成されるため、ある種のシミュレーションといえ、広義には物理シミュレーションや音楽のシンセサイザーなども含まれます。足元では機械学習や分析プロジェクトにおいて、少ないデータを合成データで補う点で注目を集めており、2021年7月にGartnerは「2024年までに、機械学習や分析プロジェクトの開発に利用されるデータの60%が合成データになる」と予測しています。
また合成データで生成されるデータは人工的なものであり、統計的な特性を保持しつつも、実在する個人のデータではないことからプライバシーの観点でも注目されています。
敵対的生成ネットワーク(Generative Adversarial Networks: GAN)と呼ばれる手法を用いた合成データの研究が盛んに進んでおり、2018年に提案されたStyleGANで生成された画像は現実には存在しない人間の画像であると大きな話題になりました。
(出典: https://arxiv.org/abs/1812.04948)
StyleGANで脚光を浴びたのは画像の生成でしたが、事業会社が自社のデータを利活用する文脈においては、機械学習や分析プロジェクトでは表形式のデータを扱うことも多いでしょう。表形式のデータから合成データを作る手法も活発に研究されており、StyleGANでも使われているGANを表形式に適用したTGANやCTGANが登場しており、学術的にも活発な分野となっています。
合成データに伴うプライバシーリスク
上記のように産学ともに大きな盛り上がりを見せている合成データですが、プライバシー保護の課題をすべて解決してくれる銀の弾丸ではありません。
こちらの記事でも「単にデータを“合成”することは意味のあるプライバシー保証ではない」と述べられています。例えば「実データセットに対して年齢に10歳を加える」というアルゴリズムで合成データを生成した場合はどうでしょう。実際のデータセットに含まれる個人より10歳年齢が上がるので実在する人物に一致するデータではありませんが、加工方法が公開されたり、推測されれば簡単に元のデータを復元することができ、プライバシーを保護できているとは言い難いと思います。これは極端な例で、実際の合成データのアルゴリズムのリスクはもっと複雑になります。例えば機械学習を用いた合成データの場合、大雑把に言えば、元のパーソナルデータから合成データを生成するモデルを「学習」する際に、モデルが元のパーソナルデータを「記憶」してしまい、モデルから個人のデータが復元できてしまう、といったことがあり得ます。
このように、単に「データを合成している」というだけでは、必ずしもプライバシーは保証されないということに注意が必要です。
セキュリティ分野のトップカンファレンスであるUSENIX Securityに採択された論文「Synthetic Data – Anonymisation Groundhog Day」は、「人工的なデータなので実在する個人のデータではない」という合成データの謳い文句に対して、実際には様々な攻撃が可能であることを報告しています。例えば、明確なプライバシー保証のない合成データのモデル(前述のGANの手法に基づくもの)を用いた場合、異常値を持つあるユーザーのレコードが訓練用のデータセットに含まれていることを、攻撃者は高い精度で推定することが可能であるという結果が出ています。
このように、合成データだからといって必ずしもプライバシーは担保されませんが、前回の記事で紹介した、プライバシー保護の基準のスタンダードである「差分プライバシー」を保証した合成データの手法も研究されています。先ほど紹介した、テーブル形式のGANに差分プライバシー保証を組み込んだDP-CGAN、DP-CTGANやPATE-GANなどが提案されています。
差分プライバシーを保証した合成データは、データの精度などの面で技術的によりチャレンジングですが、その分ポテンシャルは高く、日々進歩しています。日本でも、LINE株式会社の研究チームが発表したフレームワークPEARLの論文が、深層学習における世界トップレベルの国際学会「ICLR 2022」に採択されており、既存の差分プライバシーを保護した合成データの手法より優れた性能が得られたことを報告しています。
合成データの簡易実験
LayerXでも、差分プライバシーで保護した合成データの研究を進めています。ここでは、LayerX社内で実施したDP-CTGANと呼ばれる手法の簡易実験の結果を紹介します。この実験ではKaggleのオープンデータセット(Heart Disease Health Indicators Dataset)を利用しました。このデータセットは、40万人以上のアメリカ人を対象に米国疾病管理予防センター(CDC)が毎年実施している健康関連の電話調査によるもので、BMIなどの個人に関する情報や健康に関するリスク行動(喫煙有無など)、慢性的な健康状態、予防サービスの利用などが含まれています。
DP-CTGANで生成した表形式の合成データの出力例を以下に示します。元データに類似した表形式の合成データが生成されています。
(LayerXで作成)
各カラムの分布を可視化したものが以下になります。多少の差はありますが、元データと合成データで傾向が近しいことがわかります。
(LayerXで作成)
また、カラム同士の相関についても確認しました。元データと合成データのカラムごとに相関係数を計算し、可視化したものが以下になります。合成データにおいても、カラム同士の相関(収入と学歴に大きな相関があるなど)が概ね保持されていることが確認できます。
(LayerXで作成)
合成データの活用事例
このように研究開発が進む合成データですが、実社会での事例も盛んに増えています。医療分野など、センシティブなデータを研究用途で共有する際に合成データを活用するケースが増えていたり、また、合成データを簡単に生成するツールを提供するスタートアップの大型の資金調達も続いています。ここでは、そのような合成データの事例を紹介していきます。
事例①: バージニア州のメンタルヘルス治療
(出典: https://opengovasia.com/improving-mental-health-treatments-with-synthetic-patient-data/)
バージニア州のDepartment of Behavioural Health and Developmental Services (DBHDS)がメンタルヘルス治療に向けた合成データの活用を開始しています。メンタルヘルス疾患の予防や治療法の有効性に焦点を当てた患者中心のアウトカム研究(PCOR)には、臨床データが必要不可欠です。
一方で、現実的に患者の臨床データはコストやプライバシーに関する懸念、その他の法的規制のため、アクセスが困難であるケースが多く存在します。DBHDSは特定の病状を持ち、特定の人口統計学的プロフィールに適合する患者の合成データを生成することでこの課題に対処しようとしています。合成データは実際の患者に関連付けられないため、研究者や医療IT開発者が実際の臨床データが利用可能になるまでの時間を短縮し、より優れたPCOR基盤をサポートできるとしています。
事例②: MDCloneのCOVID-19研究
(出典: https://www.jmir.org/2021/10/e30697/PDF)
複数の機関から得られるビッグデータを用いてCOVID-19に関する包括的な分析を行う上で、個々の機関に存在する臨床データの共有にはプライバシーと機密性の課題があります。そこで、ワシントン大学では臨床データのプライバシー・機密性の保持を両立すべく、MDClone社の協力のもと、合成データを生成しています。合成データから得られた結果を元データから得られた結果と比較検証し、各ユースケースにおいてデータの分布が類似していること、予測モデルが同等の性能を示すことが確認されています。本レポートではCOVID-19研究において、合成データを活用する可能性は非常に大きいと結論付けています。MDClone社は医療分野で合成データを活用する代表的なベンチャー企業であり、累計$104Mの資金調達を行っています。
事例③: Gretel.aiの合成ゲノムデータ作成
(出典: https://cdn.gretel.ai/case_studies/gretel_illumina_case_study.pdf)
合成データスタートアップのGretel.aiは遺伝的変異と生物学的機能を分析する統合システムを販売しているIlluminaと戦略的パートナーシップを結び、プライバシー保護された合成データデータを作成しています。通常半年〜1年掛かると言われている審査委員会のプロセスを回避し、研究者が迅速にデータセットにアクセスでき、次世代DNAシーケンス分析による新薬の発見、遺伝性疾患の洞察などに繋がると期待されています。
事例④: Curaiの医療応用
(出典: https://blogs.nvidia.com/blog/2020/08/21/curai-ai-healthcare-app/)
年間40万人に登る誤診による死亡者数のほぼ半分は予防可能と言われています。医療スタートアップCuraiはチャットベースのアプリケーションを介して、患者、カウンセラー、ヘルスコーチを接続することに挑戦しています。このアプリケーションにはAIと機械学習が用いられており、その学習に40万件の合成データが利用されています。
事例⑤: Anthemの健康保険会社向け不正検知
AnthemはGoogle Cloudと提携し、健康保険会社向けの不正検知に向けた合成データプラットフォームの構築に乗り出すと発表しています。生成されるデータは病歴、医療費請求などの医療データで、約 1.5〜2 ペタバイトもの合成データを生成するとしています。生成されたデータは、個人の医療情報を取り巻くプライバシー問題を低減しながら、AIアルゴリズムの検証や学習に利用されるとのことです。
事例⑥: JPMorganの不正検知
(出典: https://www.jpmorgan.com/synthetic-data/payments-data-for-fraud-detection)
各国の金融機関は、国際的なマネーロンダリング等対策の中心的な役割を担っている金融活動作業部会(FATF)の基準に従って金融取引のトランザクションから不正検知を行う必要があります。JPMorganでは、不正検知を目的とした支払データの作成に合成データを利用しており、事前に定義された通常の振る舞いと、異常・不正な振る舞いの確率をもとに表形式で生成しています。
おわりに
本記事では合成データの概要から、合成データにもプライバシー保証が必要であること、DP-CTGANを用いた簡易実験の結果、合成データの事例を紹介しました。本文中でも述べたように合成データから生成されたデータセットであるからといってすべてのプライバシー保護が自動的に実現されるわけではありません。大きな注目を集め、将来性のある合成データですが、その扱いには高度な専門性が求められ、地道な研究開発を続けていく必要があります。
採用情報
LayerXではプライバシー保護と、企業や組織を横断したパーソナルデータの利活用の両立を一緒に目指してくださるリサーチエンジニアを募集しています。
コメント