差分隐私-资料整理和简单学习

本文最后更新于2019年5月20日,已超过 1 年没有更新,如果文章内容失效,还请反馈给我,谢谢!

=Start=

缘由:

整理一些数据安全中前沿方向的资料,方便以后参考学习。

正文:

参考解答:
1、差分隐私的由来

在2006年,美国的Netflix公司办了一个机器学习的比赛,旨在提高自己推荐系统的准确度。相当于淘宝的“猜你喜欢”功能,在这个比赛中,Netflix公布了一个数据集,里面包含了一些真实用户的浏览数据,为了保护隐私,该公司把 用户ID 和 识别码 这类的可以唯一识别用户的信息都抹去了。Netflix声称这样它们就保护了用户的隐私。

实际上,这也是目前很多公司的做法,就是对敏感数据直接抹去之后,再发布数据。然而,事实上在这个数据集发布一个月后,两个学者利用record linkage的技术,挖掘出了这个数据集中某些记录对应的用户是谁。原理就是从网上(比如IMDB,类似于中国的豆瓣电影)挖掘一些包含用户信息的电影浏览记录,然后把这些记录和Netflix数据集里的浏览记录进行匹配,就可以反向推理出在Netflix数据集中的个体对应的是哪些人,即攻击者从其他渠道获得了关于该数据集的背景知识,于是这些人在Netflix中的购买记录等隐私就泄露了。这个事件告诉我们:如果你要公布一个数据集,仅仅粗暴的移除其中的ID这类敏感信息是完全不足以保护隐私的。于是在该事件发生之后的同一年(2006年),微软的C. Dwork提出了一个概念,叫做Differential Privacy,也就是差分隐私,由此诞生了差分隐私的定义。此后数十年,很多学者相继开始该领域的研究。

2、差分隐私是什么?

通俗的说,差分隐私的思路就是,假如我现在想公布一个数据集,给大众做数据分析或者数据挖掘,但我又想保护里面每一个个体的信息不泄露,那么一种可行的手段就是给这个数据集注入一些噪音或者扰动。当然这个扰动不能随便加,否则数据就丧失了可用性。然而扰动也不能太小,否则就起不到保护隐私的作用了。

C. Dwork在他的论文中提出了一个数学上的描述,来测量一个扰动机制究竟能够带来多大程度上的保密性。简单来说就是,你给我一个数据集A,假如我有一个扰动机制,可以让我先对A做一个扰动得到A’,再从原数据集A里随意拿掉一行记录得到B,对这个数据集B做扰动得到B‘,如果得到的A’和B’几乎是一模一样的(对同一随机算法这两个数据集的输出概率分布几乎相同),那么我就认为这个扰动机制可以保护隐私。因为在这个扰动机制下,A里面任何单独一行数据存在或不存在都几乎不影响结果。

更简单的说,就是:我在或者不在这个数据集中,对查询结果没有影响。反过来说:攻击者通过对该数据集的任何查询或者背景知识都无法准确推断出我是否在这个数据集中。

3、差分隐私的实际应用场景?

差分隐私目前主要的方向在于改善「收集用户隐私数据」和「基于数据改善服务」之间的矛盾这一点上,比如:

①数据发布机制;

②推荐、广告系统中的隐私保护;

4、差分隐私的局限性在哪?

①由于对于背景知识的假设过强(适用场景有局限),需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。

②如果差分隐私引入的噪音过小,则很难隐藏信息;过大,则无法恢复数据。目前对如何引入噪音的机制研究,还没有特别好的成果。

数据规模对差分隐私的影响很大:数据库小的时候,差分隐私的代价是查询误差极大;数据库大的时候,非差分隐私的传统方法(k-annonimity, l-diversity)也能基本保证privacy,同时查询误差为0。

④它提供的是一个统计上的意义——无精确的数据意义,导致很多事情或者服务就往往做不了了。

5、差分隐私的意义在哪?

因为(差分隐私)是一种最强大的隐私保护定义。为什么是最强大呢?因为既然你在不在这个数据集中都不会影响最终的查询结果,那么我们可以认为你就不在这个数据集中,而如果你都不在这个数据集中,你的数据自然不会泄露。

事实上,不管各路学者怎么定义或者研究隐私保护,最终都会落到差分隐私上来,差分隐私是研究隐私保护问题无法绕过的。

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4441.html

《差分隐私-资料整理和简单学习》上的3个想法

  1. 常见的匿名化隐私保护技术
    https://mp.weixin.qq.com/s/46yaHiXqDpq4cY4W1uqKsQ
    `
    # 前言

    近年来,随着数据挖掘、机器学习、深度学习等技术的兴起于发展,企业从普通用户处收集到了大量的数据,并对这些数据进行分析处理来了解用户的习惯和喜好,从而向用户提供更加个性化的服务。但是用户在日常生活中产生的数据包含了大量的个人敏感信息,直接发布或者进行分析会使得不法分子收集到用户的隐私。
    2006年,Netflix举办了一个预测算法比赛,比赛要求利用公开数据推测用户对电影的评分。Netflix把数据中唯一识别用户的信息抹去,但是两位研究人员通过关联Netflix公开的数据和IMDb网站上公开的记录成功识别出匿名后用户的身份。

    我们在讨论隐私保护的时候通常包括两种情况:
    第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
    第二种是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。

    # k-匿名
    攻击方法1:未排序匹配攻击
    攻击方法2:同质化攻击
    攻击方法3:背景知识攻击
    攻击方法4:补充数据攻击

    # L-多样性
    同质化攻击,引出了敏感属性多样性的概念。即在公开的数据中,对于那些准标识符相同的数据中,敏感数据必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。
    L-多样性保证了相同类型数据中至少有L种内容不同的敏感属性。

    # T-接近
    L-多样性引出了T-接近的概念,T-接近是为了保证在相同的准标识符类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近,不超过阈值T。
    即使同时保证了K-匿名,L-多样性,T-接近,信息依然会因为攻击者的背景知识而遭到泄露。
    攻击者通过Frank的个人信息找到了四条数据,同时知道Frank有很多书,这样就很容易在四条数据中找到Frank的那一条。

    # 差分隐私
    2006年,微软的Dwork提出了差分隐私的概念,简单说来,就是用一种方法使得查询100个信息和查询其中99个信息得到的结果是相对一致的,那么攻击者就无法通过比较数据的不同找出第100个人的信息。这种方法就是加入随机性,如果查询100个记录和99个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。进一步说,对于差别只有一条记录的两个数据集D和D’,查询它们获得结果相同的概率非常接近。
    差分隐私分为中心化差分隐私和本地化差分隐私。

    # 频繁项集挖掘
    频繁项集挖掘是数据挖掘的核心问题之一,其目标是找出数据集中频繁出现的项集。

    # 存在问题
    1、中心化差分隐私对于敏感信息的保护始终基于一个前提假设:可信的数据收集者。但在实际应用中想要找到一个真正可信的数据收集者十分困难;
    2、如何在保护隐私的同时,最大限度地保留原数据中的有用信息。
    `

  2. 隐私计算工具的《个人信息保护法》评价(一)——差分隐私
    https://mp.weixin.qq.com/s/tV-EwPsgClFx47_8nvVAJg
    `
    # 差分隐私如何量化隐私的法律概念
    1、差分隐私的技术定义
    2、为什么对隐私的技术化(量化)是一种必要

    # 将差分隐私和算法转化为法律术语
    1、差分隐私是否属于加密
    2、差分隐私是否属于去标识化
    3、去标识化与匿名化

    # 局限性
    1、可以缓解但不能解决多个关联数据集上传后的隐私“推导”泄露问题
    2、ε -Differential Privacy和(ε, δ) -Differential Privacy,差分隐私仍在不断引入新参数
    3、可计算性和算法黑箱问题
    4、数据集的限制与为何大企业青睐

    # 结论与展望

    差分隐私作为量化隐私和解决链路攻击等情形下导致的个人信息泄露方面具有其场景优势,而通过hashing和分段抽样、随机应答等方式,考虑到了最小化数据收集和上传的因素,起到“弱水三千”的效果,而在工程实现中增加了哈希、TLS等密码技术,显示出各类个人信息保护技术相互协同和促进个人信息保护的努力。

    《个人信息保护法》(草案)也应激励这类自动化工具的开发与开放,以实现:(1)通过自动化工具保护个人信息;(2)对自动化工具的符合性进行评估与评价的效能。最终,通过个人信息保护与利用的动态平衡,推动包括个人信息在内的数据市场的良性发展。
    `

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注