ペンシルベニア州統計局によると、合成ネットワークは、個人または組織のプライバシーを保護しながら、一部のデータの可用性を向上させる可能性があります。
ペンシルベニア州エバリーカレッジオブサイエンスの統計学および大学院教育担当副学部長であるアレクサンドラスラブコビッチ教授は、次のように述べています。 「機密情報を発見するための定量化可能な最小限のリスクで機密データを共有でき、それでも統計の正確性と整合性を確保できることが目標です」。
Slavkovicは、特にコンピュータや社会科学者との学際的な共同作業を通じて、このデータのプライバシー問題に対する解決策を見つけました。 彼女の研究は、個人や機関などのエンティティ間の関係情報を取り込むネットワークデータを含む、さまざまなデータに焦点を当てています。 彼女は、ワシントンDCで開催されたアメリカ科学振興協会の2019年年次総会で、今日(2月16日)の差別的プライバシーの概念を満たす合成ネットワークを提供するためのアプローチを報告しました。
差別的プライバシーは、個人にプライバシー損失のレベルを数学的に証明できる保証を提供します。
科学者は彼らの研究のために他人によって収集されたデータへのアクセスを望みますが、そのようなアクセスはまたいわゆる個人を特定できるデータの削除後でさえも、個人のプライバシーを危うくすることができます。
Slavkovic氏は、「豊富な補助データが主な原因である」と述べた。 「データ収集と記録の関連付けにおける方法論的および技術的進歩、手持ちのデータセットに関連づけることができるさまざまなデータソースへのより簡単なアクセス、およびデータ共有のための資金提供機関の要求により、データプライバシーに対するリスクは高まっている。プライバシーの損失を管理するためのソリューションは、健全な科学的発見を可能にするために不可欠です。」
例えば、HIV薬に関する薬物試験からの公に入手可能な情報は、誰が治療群にいて、誰が対照群にいたかを示すであろう。 治療グループはHIVと診断された人々のみを含み、データ所有者はそのデータセットから個人的な詳細を差し控えたとしても、いくらかの識別情報は残るでしょう。 今日、ソーシャルメディアや他のデータセットでオンラインで大量の情報が利用可能であるため、ドットをつないで人々を特定し、潜在的にHIVの状態を明らかにすることが可能です。
Slavkovic氏は、「有権者の記録と健康保険のデータなど、2つのデータセットをリンクするためのテクニックが大幅に向上した」と述べた。 「初期の調査結果の1つでは、Latanya Sweeny(現在はHarvardにある)は、これらのデータをリンクさせることで、誕生日、性別および5桁の数字に基づいて、1990年以降の米国国勢調査の人口の87パーセントを特定できることを示した郵便番号。ごく最近、研究者はつぶやきとそれに関連するTwitterメタデータを使用して、96.7パーセントの精度でユーザーを識別できることを示しました。」
Slavkovic氏は、データがデータベースに含まれているのは人や機関だけではなく、データベースの外の人も直接的または関連によってプライバシーの侵害を被る可能性があると述べています。 データセット内の情報とソーシャルメディア上の情報との関連付けは、深刻なプライバシー侵害につながる可能性があります。HIV状態や性的指向などの何かが明らかになった場合、深刻な波及効果をもたらす可能性があります。
プライバシーは重要ですが、収集されたデータセットは研究者にとって不可欠な情報源です。 現在、データの機密性が非常に高い場合には、研究者は物理的にデータリポジトリにアクセスして研究を行わなければならず、研究がより困難で高価になります。
Slavkovicはネットワークデータに興味があります。 人や機関(ノード)の相互接続性、およびノード間の接続を示す情報。 彼女のアプローチは、わずかに変更された、ミラー化されたネットワークデータセットを作成し、少数のノードを移動したり、接続を移動したり、エッジを変更したりすることです。
Slavkovic氏は、「目的は、厳格な差別化されたプライバシー要件を満たすと同時に、元のネットワークから統計情報の大部分を取得する新しいネットワークを作成することです」と述べています。
これらの合成データセットは、一部の研究者が彼らの研究ニーズを満たすのに十分であるかもしれません。 他の人にとっては、データ保管場所に行かなければならない前に彼らのアプローチと仮説をテストすることで十分だろう。 研究者は、リポジトリサイトで元のデータを使用する許可を待っている間に、コードをテストし、探索的な調査を行い、場合によっては基本的な分析を行うことができます。
Slavkovic氏は、次のように述べています。 「元のデータを必要とする人もいますが、合成ネットワークなどの合成データをうまく活用する人もいるでしょう。」