ディスカッション (11件)
米国国勢調査局(Census Bureau)が、公開する統計プロダクトにおいて「ノイズ注入(Noise infusion)」手法を禁止する方針を打ち出しました。これまでプライバシー保護を目的に導入されていた手法ですが、今後はデータの精度と透明性を最優先した運用へと舵が切られることになります。統計の正確性を重視するデータサイエンティストやリサーチャーにとっては、今後のデータ活用環境に大きな影響を与えるニュースです。
差分プライバシーは、このトレードオフを明確にするため無視できなくなります。おそらく、禁止することは問題が存在しないふりをして、そのまま消えてくれることを願うようなものでは?
あるいは、対立する目標のうち片方がもう片方よりも重要であり、だからこそ犠牲にすべきではないと言っているのかもしれない。
「全部公開すべきだ」と主張するコメントが散見されるけど、単細胞な思考の極みでひどいもんだね。
国勢調査っていうのは、単に質問を投げかけるだけのものだぞ。
もし公開して、そのデータを特定の属性を持つ人々に悪用し始めたら、みんな嘘をつくか回答しなくなるだろう。そうなれば、何もないよりも悪い状態、つまり人々が判断材料に使おうとして役に立たない『質の悪いデータ』だけが手元に残るんだ。
データセットからは除外して、分析にだけ加えればいい。ノイズの種類も選べるんだし。
ここの政治的な意図は分からないけど、ある程度のレベルでは「この個人や世帯は拒否した」という事実を含むグランドトゥルース(正解データ)を持っておく必要があるんじゃないかな。
でも、ローデータを公開するって?それこそ国家安全保障の観点から言えば墓穴を掘るようなものだし、他にも公開すべきでない理由は山ほどあるでしょ。
何をするにせよ、国勢調査には一定の信頼が前提としてあるんだ。このデータが詐欺や不正など悪用されるような形で識別されないという信頼ね。でもニューヨークでは住宅の販売記録が公開されていて、多くの住宅ローン会社がそれを悪用して偽の請求書を送りつけてくるという深刻な被害が出ている。
差分プライバシーは絶対に必要だし、社会学者が個人のレベルでデータを再構成できないようにするのは意図された結果だよ。マクロな記述でほとんどの目的には十分だし、それ以上を求めるのは監視国家を望むのと同じだ。
あるヨーロッパの国に住んでいた経験から言うと、国勢調査の回答がいつトラブルの元になるかなんて分からないものだよ。
「宗教は何ですか」。一見なんてことのない質問だけど、1940年代に特定の外国軍が占領した際、その回答が自分に結びつけられたせいで命取りになった例もあるんだ。
こういう話の折り合いをつけるのが本当に難しいんだよね。
国勢調査局は2020年の調査に差分プライバシーを導入することを決定した
と、
その結果は有用性やプライバシー、あるいはその両方にとって壊滅的になる。この点を過小評価してはいけない。将来の統計公開は、過去のものと比較して無用になるか、極めて安全性が低いものになるだろう
百年もの間、国勢調査をやってきて「大丈夫」だったわけだろ。直近の調査で初めてプライバシー対策を加えただけなのに、そのフィルターを一つ外すだけで「壊滅的」な状況になるの?そもそも以前はプライバシー機能なんてなかったのに。つまり、我々は数百年前の状態よりは遥かにマシなはずだよね。
なんだか感情的で大げさな問題に見えてくるよ。
個人的には悲しいことだと思うよ。理想としては、国家が国民の現状を把握し、社会全体の意思決定をうまく行えるようになるべきだ。データ収集インフラを意図的に損なうことで、後で後悔するような間違いを犯している気がする。
アメリカの成功の多くは、優れた機関が詳細なデータを扱ってきたおかげだと思う。結果に合わせて迅速に政策を調整できるからね。
国家の能力を縮小したがる人たちの気持ちも分かる。政府が自分たちの敵対者に乗っ取られ、国家の権力を行使されると恐れているからだ。でも相対的な国力が落ちていく中で、惰性に抗う力も失われていく。そうなれば政府は無能になり、最終的には生活も悪化し始めるんだ。
今すぐに家単位の詳細データが必要というわけではないけど(国会議員選挙区を区切るためなど必要最低限は別として)、ある程度の集計単位までは、可能な限り良質な情報を使うべきだと思うよ。
前回の国勢調査で「調査員」をやったよ。地域社会の不信感はすでに高くて、面白い体験をたくさんした。自分が集めているプライバシーを侵害しかねないデータが、人当たりの良い顔をして、責任を持って扱われると信じていたんだ。2030年に戸別訪問を志願する可哀想な人たちが不憫でならないよ。敏感な政府データの悪用や収益化を防ぐファイアウォールはもう取り払われてしまったんだから。自分を傷つける可能性のある情報を自ら提供してしまう人たちを思うと、さらに心が痛む。
この非常に高コストな事業は単なる人口カウントのためのものだ、なんていうコメントも笑っちゃうね。収集されたデータは共通理解の非常に重要なベースラインだったのに、今後の品質が良くなるはずがない。最近この国で当たり前だと思っていたことが、何一つ声を上げることなく失われたり劣化したりするのを見て、すっかり冷めてしまったよ。
*: 公平を期すために言うと、私が派遣されたのは未回答の場所ばかりだった。だから地域のみんなが政府を嫌っていて、奇妙な脅迫チラシを無視したり、最近引っ越してきたばかりで住民がいなかったりすると思い込まされるのは当然だったんだ。
差分プライバシーは、このトレードオフを明確にするため無視できなくなります。
いや、逆じゃないか?
差分プライバシーのような技術は、この分野を専門とするごく一部のエキスパート以外には、トレードオフの存在自体を隠してしまうものだよ。
この決定を擁護する知識はないけど、もし本当にトレードオフが存在するなら、こうした技術を使わないことで、統計家以外の人間にもトレードオフを突きつけるべきじゃないか。
もし公共データが公開すると危険なほどのもので、結果を偽装しなきゃいけないなら、そもそも収集すべきデータじゃないのかもしれない。
今週開かれたテキサス州共和党大会で、修正案を通じて差分プライバシーに反対する文言を党綱領に追加しようという動きがあったんだ。その根拠として、国勢調査に関わっていたとされる人物の「橋の下のホームレスが1人、差分プライバシーのせいで5人に見えるなんて常識的に馬鹿げている」という話が持ち出された。通過したかどうかは知らないけど、こういう草の根の突き上げが背景にあるんだよ。