差分隐私-资料整理和简单学习

=Start=

缘由:

整理一些数据安全中前沿方向的资料,方便以后参考学习。

正文:

参考解答:
1、差分隐私的由来

在2006年,美国的Netflix公司办了一个机器学习的比赛,旨在提高自己推荐系统的准确度。相当于淘宝的“猜你喜欢”功能,在这个比赛中,Netflix公布了一个数据集,里面包含了一些真实用户的浏览数据,为了保护隐私,该公司把 用户ID 和 识别码 这类的可以唯一识别用户的信息都抹去了。Netflix声称这样它们就保护了用户的隐私。

实际上,这也是目前很多公司的做法,就是对敏感数据直接抹去之后,再发布数据。然而,事实上在这个数据集发布一个月后,两个学者利用record linkage的技术,挖掘出了这个数据集中某些记录对应的用户是谁。原理就是从网上(比如IMDB,类似于中国的豆瓣电影)挖掘一些包含用户信息的电影浏览记录,然后把这些记录和Netflix数据集里的浏览记录进行匹配,就可以反向推理出在Netflix数据集中的个体对应的是哪些人,即攻击者从其他渠道获得了关于该数据集的背景知识,于是这些人在Netflix中的购买记录等隐私就泄露了。这个事件告诉我们:如果你要公布一个数据集,仅仅粗暴的移除其中的ID这类敏感信息是完全不足以保护隐私的。于是在该事件发生之后的同一年(2006年),微软的C. Dwork提出了一个概念,叫做Differential Privacy,也就是差分隐私,由此诞生了差分隐私的定义。此后数十年,很多学者相继开始该领域的研究。

2、差分隐私是什么?

通俗的说,差分隐私的思路就是,假如我现在想公布一个数据集,给大众做数据分析或者数据挖掘,但我又想保护里面每一个个体的信息不泄露,那么一种可行的手段就是给这个数据集注入一些噪音或者扰动。当然这个扰动不能随便加,否则数据就丧失了可用性。然而扰动也不能太小,否则就起不到保护隐私的作用了。

C. Dwork在他的论文中提出了一个数学上的描述,来测量一个扰动机制究竟能够带来多大程度上的保密性。简单来说就是,你给我一个数据集A,假如我有一个扰动机制,可以让我先对A做一个扰动得到A’,再从原数据集A里随意拿掉一行记录得到B,对这个数据集B做扰动得到B‘,如果得到的A’和B’几乎是一模一样的(对同一随机算法这两个数据集的输出概率分布几乎相同),那么我就认为这个扰动机制可以保护隐私。因为在这个扰动机制下,A里面任何单独一行数据存在或不存在都几乎不影响结果。

更简单的说,就是:我在或者不在这个数据集中,对查询结果没有影响。反过来说:攻击者通过对该数据集的任何查询或者背景知识都无法准确推断出我是否在这个数据集中。

3、差分隐私的实际应用场景?

差分隐私目前主要的方向在于改善「收集用户隐私数据」和「基于数据改善服务」之间的矛盾这一点上,比如:

①数据发布机制;

②推荐、广告系统中的隐私保护;

4、差分隐私的局限性在哪?

①由于对于背景知识的假设过强(适用场景有局限),需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。

②如果差分隐私引入的噪音过小,则很难隐藏信息;过大,则无法恢复数据。目前对如何引入噪音的机制研究,还没有特别好的成果。

数据规模对差分隐私的影响很大:数据库小的时候,差分隐私的代价是查询误差极大;数据库大的时候,非差分隐私的传统方法(k-annonimity, l-diversity)也能基本保证privacy,同时查询误差为0。

④它提供的是一个统计上的意义——无精确的数据意义,导致很多事情或者服务就往往做不了了。

5、差分隐私的意义在哪?

因为(差分隐私)是一种最强大的隐私保护定义。为什么是最强大呢?因为既然你在不在这个数据集中都不会影响最终的查询结果,那么我们可以认为你就不在这个数据集中,而如果你都不在这个数据集中,你的数据自然不会泄露。

事实上,不管各路学者怎么定义或者研究隐私保护,最终都会落到差分隐私上来,差分隐私是研究隐私保护问题无法绕过的。

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4441.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注