Algorithm “隐私和匿名化”;算法";
我在一本书中读到这个问题(采访问题),想在这里详细讨论这个问题。请在上面放几盏灯 问题如下:- 隐私和匿名化 马萨诸塞州团体保险委员会早在20世纪90年代中期就有了一个好主意——它决定公布州雇员的“匿名”数据,显示他们每一次医院就诊的情况 目的是帮助研究人员。该州花了大量时间删除姓名、地址和社会保险号等标识。马萨库塞茨州长向公众保证,这足以保护患者隐私 后来,一名研究生发现这种方法存在重大缺陷。她要求提供一份数据副本,并通过在多个栏中整理数据,她能够确定州长的健康记录 这表明在匿名化数据时需要格外小心。确保隐私的一种方法是聚合数据,这样任何记录都可以映射到至少k个个人,以获得k的某个较大值 我想通过一些例子来实际体验这个问题,然后看看真正需要做什么来实现匿名化。我希望你清楚这个问题 我没有经验丰富的人能帮我处理这样的问题。请不要投票来结束这个问题。。。。。如果发生这种情况,我会很无助 谢谢&如果需要更多的解释,请回答问题 “我想通过一些例子来实际体验这个问题,然后了解进行匿名化的实际步骤。” 您还可以通过单独查找一个数据集来构建自己的数据集,“匿名化”它,并尝试重新构建它 “我想通过一些例子来实际体验这个问题,然后了解进行匿名化的实际步骤。”Algorithm “隐私和匿名化”;算法";,algorithm,Algorithm,我在一本书中读到这个问题(采访问题),想在这里详细讨论这个问题。请在上面放几盏灯 问题如下:- 隐私和匿名化 马萨诸塞州团体保险委员会早在20世纪90年代中期就有了一个好主意——它决定公布州雇员的“匿名”数据,显示他们每一次医院就诊的情况 目的是帮助研究人员。该州花了大量时间删除姓名、地址和社会保险号等标识。马萨库塞茨州长向公众保证,这足以保护患者隐私 后来,一名研究生发现这种方法存在重大缺陷。她要求提供一份数据副本,并通过在多个栏中整理数据,她能够确定州长的健康记录 这表明在匿名化数据时需要格
您也可以通过单独查找一个数据集来构建自己的数据集,“匿名化”它,并尝试重新构建它。我只是复制了您粘贴的部分文本,无意中发现了它 这有助于理解您的问题: 在GIC发布数据时,时任马萨诸塞州州长威廉·韦尔德(William Weld)向公众保证,GIC通过删除标识符保护了患者隐私。作为回应,当时的研究生斯威尼开始在GIC数据中寻找州长的医院记录。她知道韦尔德州长居住在马萨诸塞州剑桥市,该市有54000名居民,邮编为7。她花了20美元从剑桥市购买了完整的选民名单,这是一个数据库,其中包括每个选民的姓名、地址、邮政编码、出生日期和性别。通过将这些数据与GIC记录相结合,Sweeney轻松找到了调速器焊缝。剑桥只有六个人分享了他的出生日期,其中只有三个人是男性,其中只有他住在自己的邮编里。斯威尼博士把州长的健康记录(包括诊断和处方)送到了他的办公室,这是一种戏剧性的繁荣 轰!但这只是斯威尼职业生涯的早期里程标志;2000年,她发现,87%的美国人只需使用邮政编码、出生日期和性别这三个信息就能被唯一识别 正如您所说的,您需要一个随机数据库,并确保任何记录都可以映射到至少k个个体,对于某个较大的k值 换句话说,您需要清除数据库中的歧视性信息。例如,如果在数据库中只保留性别(M/F),则无法确定谁是谁。因为只有两个条目:M和F 但是,如果您选择出生日期,那么您的条目总数将或多或少变为2*365*80~=50.000。(我选择了80年)。即使您的数据库包含50万人,其中一人(比如1985年3月3日出生的男性)也有可能是唯一有此项的人,因此您可以认出他 这只是一个简单的方法,依赖于组合的东西。如果你想要更复杂的东西,寻找和 编辑:让我们举个例子。让我们假设我在从事医疗工作。只要我保持
- 性别:2种可能性(M,F)
- 血型:4种可能性(O、A、B、AB)
- 恒河猴:2种可能性(+,-)
- 他们居住的州:50种可能性(如果你在美国)
- 出生月份:12种可能性(影响婴儿死亡率)
- 他们的年龄类别:10种可能性(0-9岁,10-19岁…90无限)
但是,如果您只拥有您居住的城市的数据库,例如,该城市有20万居民,则您无法保证匿名。因为200000比96000“大不了多少”。(“不太大”是一个真正复杂的科学术语,需要概率方面的知识:P)
我只是复制了你文章中粘贴的部分,无意中发现了
这有助于理解您的问题: 在GIC发布数据时,时任马萨诸塞州州长威廉·韦尔德(William Weld)向公众保证,GIC通过删除标识符保护了患者隐私。作为回应,斯图毕业了