差分隐私-资料整理和简单学习


=Start=

缘由:

整理一些数据安全中前沿方向的资料,方便以后参考学习。

正文:

参考解答:
1、差分隐私的由来

在2006年,美国的Netflix公司办了一个机器学习的比赛,旨在提高自己推荐系统的准确度。相当于淘宝的“猜你喜欢”功能,在这个比赛中,Netflix公布了一个数据集,里面包含了一些真实用户的浏览数据,为了保护隐私,该公司把 用户ID 和 识别码 这类的可以唯一识别用户的信息都抹去了。Netflix声称这样它们就保护了用户的隐私。

实际上,这也是目前很多公司的做法,就是对敏感数据直接抹去之后,再发布数据。然而,事实上在这个数据集发布一个月后,两个学者利用record linkage的技术,挖掘出了这个数据集中某些记录对应的用户是谁。原理就是从网上(比如IMDB,类似于中国的豆瓣电影)挖掘一些包含用户信息的电影浏览记录,然后把这些记录和Netflix数据集里的浏览记录进行匹配,就可以反向推理出在Netflix数据集中的个体对应的是哪些人,即攻击者从其他渠道获得了关于该数据集的背景知识,于是这些人在Netflix中的购买记录等隐私就泄露了。这个事件告诉我们:如果你要公布一个数据集,仅仅粗暴的移除其中的ID这类敏感信息是完全不足以保护隐私的。于是在该事件发生之后的同一年(2006年),微软的C. Dwork提出了一个概念,叫做Differential Privacy,也就是差分隐私,由此诞生了差分隐私的定义。此后数十年,很多学者相继开始该领域的研究。

2、差分隐私是什么?

通俗的说,差分隐私的思路就是,假如我现在想公布一个数据集,给大众做数据分析或者数据挖掘,但我又想保护里面每一个个体的信息不泄露,那么一种可行的手段就是给这个数据集注入一些噪音或者扰动。当然这个扰动不能随便加,否则数据就丧失了可用性。然而扰动也不能太小,否则就起不到保护隐私的作用了。

C. Dwork在他的论文中提出了一个数学上的描述,来测量一个扰动机制究竟能够带来多大程度上的保密性。简单来说就是,你给我一个数据集A,假如我有一个扰动机制,可以让我先对A做一个扰动得到A’,再从原数据集A里随意拿掉一行记录得到B,对这个数据集B做扰动得到B‘,如果得到的A’和B’几乎是一模一样的(对同一随机算法这两个数据集的输出概率分布几乎相同),那么我就认为这个扰动机制可以保护隐私。因为在这个扰动机制下,A里面任何单独一行数据存在或不存在都几乎不影响结果。

更简单的说,就是:我在或者不在这个数据集中,对查询结果没有影响。反过来说:攻击者通过对该数据集的任何查询或者背景知识都无法准确推断出我是否在这个数据集中。

3、差分隐私的实际应用场景?

差分隐私目前主要的方向在于改善「收集用户隐私数据」和「基于数据改善服务」之间的矛盾这一点上,比如:

①数据发布机制;

②推荐、广告系统中的隐私保护;

4、差分隐私的局限性在哪?

①由于对于背景知识的假设过强(适用场景有局限),需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。

②如果差分隐私引入的噪音过小,则很难隐藏信息;过大,则无法恢复数据。目前对如何引入噪音的机制研究,还没有特别好的成果。

数据规模对差分隐私的影响很大:数据库小的时候,差分隐私的代价是查询误差极大;数据库大的时候,非差分隐私的传统方法(k-annonimity, l-diversity)也能基本保证privacy,同时查询误差为0。

④它提供的是一个统计上的意义——无精确的数据意义,导致很多事情或者服务就往往做不了了。

5、差分隐私的意义在哪?

因为(差分隐私)是一种最强大的隐私保护定义。为什么是最强大呢?因为既然你在不在这个数据集中都不会影响最终的查询结果,那么我们可以认为你就不在这个数据集中,而如果你都不在这个数据集中,你的数据自然不会泄露。

事实上,不管各路学者怎么定义或者研究隐私保护,最终都会落到差分隐私上来,差分隐私是研究隐私保护问题无法绕过的。

参考链接:

=END=


《 “差分隐私-资料整理和简单学习” 》 有 4 条评论

  1. 常见的匿名化隐私保护技术
    https://mp.weixin.qq.com/s/46yaHiXqDpq4cY4W1uqKsQ
    `
    # 前言

    近年来,随着数据挖掘、机器学习、深度学习等技术的兴起于发展,企业从普通用户处收集到了大量的数据,并对这些数据进行分析处理来了解用户的习惯和喜好,从而向用户提供更加个性化的服务。但是用户在日常生活中产生的数据包含了大量的个人敏感信息,直接发布或者进行分析会使得不法分子收集到用户的隐私。
    2006年,Netflix举办了一个预测算法比赛,比赛要求利用公开数据推测用户对电影的评分。Netflix把数据中唯一识别用户的信息抹去,但是两位研究人员通过关联Netflix公开的数据和IMDb网站上公开的记录成功识别出匿名后用户的身份。

    我们在讨论隐私保护的时候通常包括两种情况:
    第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
    第二种是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。

    # k-匿名
    攻击方法1:未排序匹配攻击
    攻击方法2:同质化攻击
    攻击方法3:背景知识攻击
    攻击方法4:补充数据攻击

    # L-多样性
    同质化攻击,引出了敏感属性多样性的概念。即在公开的数据中,对于那些准标识符相同的数据中,敏感数据必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。
    L-多样性保证了相同类型数据中至少有L种内容不同的敏感属性。

    # T-接近
    L-多样性引出了T-接近的概念,T-接近是为了保证在相同的准标识符类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近,不超过阈值T。
    即使同时保证了K-匿名,L-多样性,T-接近,信息依然会因为攻击者的背景知识而遭到泄露。
    攻击者通过Frank的个人信息找到了四条数据,同时知道Frank有很多书,这样就很容易在四条数据中找到Frank的那一条。

    # 差分隐私
    2006年,微软的Dwork提出了差分隐私的概念,简单说来,就是用一种方法使得查询100个信息和查询其中99个信息得到的结果是相对一致的,那么攻击者就无法通过比较数据的不同找出第100个人的信息。这种方法就是加入随机性,如果查询100个记录和99个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。进一步说,对于差别只有一条记录的两个数据集D和D’,查询它们获得结果相同的概率非常接近。
    差分隐私分为中心化差分隐私和本地化差分隐私。

    # 频繁项集挖掘
    频繁项集挖掘是数据挖掘的核心问题之一,其目标是找出数据集中频繁出现的项集。

    # 存在问题
    1、中心化差分隐私对于敏感信息的保护始终基于一个前提假设:可信的数据收集者。但在实际应用中想要找到一个真正可信的数据收集者十分困难;
    2、如何在保护隐私的同时,最大限度地保留原数据中的有用信息。
    `

  2. 隐私计算工具的《个人信息保护法》评价(一)——差分隐私
    https://mp.weixin.qq.com/s/tV-EwPsgClFx47_8nvVAJg
    `
    # 差分隐私如何量化隐私的法律概念
    1、差分隐私的技术定义
    2、为什么对隐私的技术化(量化)是一种必要

    # 将差分隐私和算法转化为法律术语
    1、差分隐私是否属于加密
    2、差分隐私是否属于去标识化
    3、去标识化与匿名化

    # 局限性
    1、可以缓解但不能解决多个关联数据集上传后的隐私“推导”泄露问题
    2、ε -Differential Privacy和(ε, δ) -Differential Privacy,差分隐私仍在不断引入新参数
    3、可计算性和算法黑箱问题
    4、数据集的限制与为何大企业青睐

    # 结论与展望

    差分隐私作为量化隐私和解决链路攻击等情形下导致的个人信息泄露方面具有其场景优势,而通过hashing和分段抽样、随机应答等方式,考虑到了最小化数据收集和上传的因素,起到“弱水三千”的效果,而在工程实现中增加了哈希、TLS等密码技术,显示出各类个人信息保护技术相互协同和促进个人信息保护的努力。

    《个人信息保护法》(草案)也应激励这类自动化工具的开发与开放,以实现:(1)通过自动化工具保护个人信息;(2)对自动化工具的符合性进行评估与评价的效能。最终,通过个人信息保护与利用的动态平衡,推动包括个人信息在内的数据市场的良性发展。
    `

  3. 差分隐私技术在火山引擎的应用实践
    https://mp.weixin.qq.com/s/qE_xLv67itvAGs1rAlmvZw
    `
    一、背景

    1.1 隐私泄漏场景

    随着用户自身隐私保护意识的提升和《数据安全法》、《个人信息保护法》等国家法律法规的陆续施行,如何在收集、使用用户数据的过程中保障用户的隐私安全、满足监管要求,成为了挑战性的问题。在互联网厂商的日常业务中,常见的用户隐私泄露场景有:

    (1)数据统计查询: 对用户数据进行统计查询的结果直接向客户返回(如客群洞察等业务),存在通过差分攻击从统计结果中获取个体信息的可能性。

    例如,某互联网公司为外部客户提供客群画像服务,客户分别查询群体 A 和群体 B(群体 B 与群体 A 相比,仅多出一名用户甲)的居住地分布,如果第二次查询结果中居住在南京鼓楼的人数比第一次报告中多 1,那么可以推断出甲的居住地在南京鼓楼,泄露了甲的隐私信息。

    (2)用户数据采集: 手机 APP、移动终端通常会采集多种用户信息(如地理位置,健康状态等)以提升服务质量和用户体验。然而,直接采集可能会导致用户隐私的泄露,同时也受到法律法规的严格限制。

    例如,用户甲在某专科医院看病时打开了位置定位,互联网厂商通过收集用户甲的地理位置,可能会推断出用户甲患有某种疾病,从而造成用户甲的隐私泄露。
    因此,对于广大互联网厂商来说,研发高质量的隐私保护服务,以解决统计发布、数据采集等场景中的用户隐私泄露问题,同时保证数据的可用性,从而满足监管要求,为业务赋能,成为了重要的工作。

    1.2 去标识化与差分隐私

    传统的隐私保护手段往往通过解耦、泛化等方法去除用户记录的标识符信息(如姓名、身份证号、设备 ID 等),或通过匿名化技术(如 K-匿名、L-多样性等)对用户记录的准标识符(如街道、邮编等)进行泛化、压缩,使得攻击者无法直接或间接地把处理过的数据与用户准确地重新关联。然而,传统方法的安全性与攻击者所掌握的背景知识密切相关,并且难以对隐私保护水平进行定量分析。例如上文中的查询场景,由于攻击者有背景知识存在(知道员工甲是否在查询范围中),传统的匿名化方法无法起到预期的作用。

    为解决这些问题,差分隐私(Differential Privacy,简称 DP) [1]技术应运而生。该技术提供了一种严格、可证明的隐私保护手段,且其保护强度不依赖于攻击者所掌握的背景知识。由于这些特点,差分隐私一经提出便得到了学术界和工业界的广泛认可和应用。

    1.3 基于差分隐私的保护服务

    为了解决查询统计以及用户数据采集场景中隐私泄露问题,火山引擎安全研究团队基于差分隐私技术,依托自研的 Jeddak 数据安全隐私计算平台,分别研发了面向查询保护的 DPSQL 服务(Differentially Private SQL Query Service)以及面向采集保护 LDPDC 服务(Locally Differentially Private Data Collection Service),在保障查询和采集过程中用户隐私的基础上,实现了数据的高可用目标。以下分别对两个服务进行介绍。

    二、DPSQL 查询保护服务

    DPSQL 采用中心化差分隐私(Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景)[1]模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。由于现实场景中查询请求的多样性,DPSQL 服务构建面临以下关键挑战:

    * 如何兼容不同类型数据库的查询方言,以降低使用成本、保障客户的查询体验?
    * 如何在复杂 SQL 语句情况下计算合适的差分隐私噪声,兼顾隐私保护效果与保证数据效用?

    以下将从服务架构和关键设计两个方面阐述 DPSQL 的应对措施,并对落地应用进行简要介绍。

    三、 LDPDC 采集保护服务

    LDPDC 服务以本地化差分隐私(Local Differential Privacy)[2]为核心技术,为用户提供端上的 LDP-SDK,实现端上的数据的扰动处理。同时,配套提供了服务端的计算服务,对 LDP-SDK 采集的数据进行汇总分析。同样地,LDPDC 面临以下挑战:

    * 如何在满足用户个性化隐私保护需求的同时,降低通信开销?
    * 如何针对分析任务,降低采集数据中的噪声,提高数据可用性?

    同样的,以下从服务架构和关键设计两个方面阐述 LDPDC 的应对措施,并对落地应用进行简要介绍。
    `

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注