top of page

Technology

LayerXでは、特に近年米国の国勢調査やApple等のグローバルIT企業により実用化が進み、「プライバシー保護要件」として学術的なデファクトスタンダードになっている「差分プライバシー」や、

統計的な特徴を維持して擬似データを生成する「合成データ」等、さまざまなプライバシー保護技術の基礎研究を推進しています。さらに研究活動を通して、企業、自治体のお客様の課題に応じて最適なプライバシー保護技術を導入可能なPrivacyTechモジュール群「Anonify」を開発しています。

3D illustration of blocks in a blockchain_edited.jpg

差分プライバシー

Differential Privacy

統計データにプライバシーを保護するノイズを付与することによって、統計的有用性を維持したまま、統計データに対して数学的に証明可能なプライバシー保証を提供する技術。

匿名化

Anonymization

特定の個人の識別や特定、他のデータとの照合を困難とするようにデータを加工。リスクシナリオの仮定に基づきk-匿名性、l-多様性、t-近接性等の指標でリスクを定量的に評価。

合成データ

Synthetic Data

元のデータの統計的な特徴を再現する、実在しない個人の擬似データを生成する技術。探索的なデータ分析や、機械学習の学習データに利用可能。

​秘密計算

Secure Computation

データを暗号化したまま高度な処理を可能にする技術。データの取得、処理、保管という一連のプロセスに渡って秘匿化し、情報漏洩やプライバシー侵害の懸念を最小化する。

差分プライバシー

​差分プライバシー

2006年、コンピュータ科学者のグループが、機密データに基づく統計データの公表に対して数学的に証明可能なプライバシー保証を提供するアプローチとして、「差分プライバシー」を考案。2017年には、コンピュータサイエンス分野の最高峰である「ゲーデル賞」を受賞。機密データに基づく統計データに、プライバシーを保護するノイズを付与することによって、統計的有用性を維持したまま、統計データに対する数学的に証明可能なプライバシー保証を提供するもの。

統計情報から個人が識別されるリスク

米国国勢調査は、政策決定や学術研究において柔軟に分析するため、大量の統計情報を公開する。従来からスワッピング等のプライバシー保護技術を取り入れてきたが、2010年度の国勢調査に対し再構築攻撃が可能だったことが明らかに。さらに統計情報の差分からも個人が識別されるリスクがあることが広く知られている。

image (35).png

実用化が進む差分プライバシー

米国国勢調査局は、2020年国勢調査において、“差分プライバシー”を活用することによって、国民の匿名性を担保したまま、所得や学歴などの国勢調査結果を全世界に公表。米国国勢調査以外にもFacebookやApple、MicrosoftやLinkedin、Uberといった名だたるグローバルIT企業が差分プライバシーの活用を推進。

image (36).png

プライバシーを保護して高度な統計分析を実現

シンプルな統計量の算出・クロス集計の他、機械学習や多変量解析のような高度な統計分析にも適用可能なため、ビジネス上の意思決定・施策に繋がる高度なデータ利活用を、社外の組織や社内の他部門などと連携し、プライバシーを保護した上で実現可能。

image (39).png

汎用性・アカウンタビリティ・デファクト性

差分プライバシーは、汎用性・アカウンタビリティ・デファクト性を備えたプライバシー要件を満たすことが特徴。1970年代から続くプライバシー研究において、近年では差分プライバシーがデファクトになっており、世界中の研究者が採用。米国数学会や、健康情報学分野のトップジャーナル等でも統計情報の公開においてプライバシー保証を行う標準的な手法として、差分プライバシーを評価。

image (13).png

合成データ

機械学習でデータの統計的特徴を吸収した上でデータを生成することで、元のデータの統計的な特徴を再現する、実在しない個人の擬似データを生成する技術。プライバシーを保護したまま、探索的なデータ分析や機械学習の学習データに利用可能。

統計的な特徴を維持して実在しない個人のデータを生成

GAN(敵対的生成ネットワーク)等の機械学習アルゴリズムが、元のセンシティブなパーソナルデータの統計的な特徴を学習し、擬似データを生成。

image (37).png

元データに含まれる個人の情報が復元されないことを保証

合成データモデルがデータから特徴量を学習する段階で差分プライバシーを適用することで、合成データから元データに含まれる個人の情報が復元されないことを保証。

image (7)_edited_edited_edited.jpg

プライバシーを保護してデータ分析や機械学習を実現

実在しない個人の擬似データだが、分析した結果の統計量や分布等の特徴は維持されており、プライバシーを保護した統計分析や機械学習への活用が可能。一方、n1分析や少数グループを対象にした分析には適さない。

image (5).png
合成データ
匿名化

匿名化

個人を特定・識別可能な情報を削除または加工するデータ処理手法。データに含まれる名前や電話番号、住所など直接個人を特定できる情報に加え、購買履歴や移動履歴、閲覧履歴など、間接的に個人を識別・特定できる情報も含めて適切に加工することで、プライバシーを保護したままデータ利活用が可能に。

安易な”匿名化”によるリスク

匿名化を行う上では直接的に個人を識別できる情報の削除だけではなく、履歴やその他の情報も含めて、間接識別子(間接的に個人を識別可能な情報)を適切に定義・設計し、最適な加工手法を施す必要がある。

最適な匿名化アルゴリズムの適用

ベーシックな匿名化手法では画一的な加工により多くの価値ある情報が不必要に損なわれてしまう。ユースケースやデータの特徴に応じて最適なアルゴリズムや加工手法を施すことで、有用性を最大化することが可能。

Anonifyによる高度な匿名化・リスク評価アルゴリズム

ユースケースごとに間接識別子の自動抽出や複数の加工基準における匿名性と有用性の定量評価を実現。外部に提供する場合や社内で利用する場合など、リスク度合いごとに最適なカスタマイズが可能。

秘密計算

秘密計算

既存のセキュリティ技術では、データは保存状態と通信状態においてのみ暗号化されており、データの処理時には復号されるため、ハッキングや内部犯行による情報流出・プライバシー侵害といったリスクが残る。秘密計算(コンフィデンシャル・コンピューティング)は、データを外部からだけでなく、管理者やシステムの他の部分からも秘匿化しながら処理することで、データの処理状態における保護を可能に。

データの中身を明かすこと無くデータシェアリングを実現

ガバナンスの効かない他社や他部門に暗号化したデータを渡し、暗号化したままデータを分析・活用することが可能。外部からのハッキングのリスクや内部犯行のリスク、運営者がデータを閲覧できることに対するユーザーの懸念など、暗号化や匿名化では解決できない問題を根源的に解決。

image_edited.jpg

プログラムやデータ、履歴の改竄を防止し、信頼性を担保

監査機能により内部で実行されるプログラムの正当性を検証可能。ブロックチェーンを組み合わせることで改竄耐性や監査性の実現も可能に。

スクリーンショット 2021-05-11 8.56_edited.jpg

Anonifyによる効率的な秘密計算の導入

秘密計算を導入する際に通常必要となる、特殊なプログラムの実装、TEEをサポートするマシンの運用や冗長化、鍵管理、外部システムとの連携などを、Anonifyのモジュールを活用して効率的に実現。

image (16).png
bottom of page