跳转至

大数据安全与隐私保护

987 个字 预计阅读时间 4 分钟

大数据隐私保护关键技术解析:数据脱敏、匿名化、差分隐私和同态加密 - 安全内参 | 决策者的网络安全知识库

数据脱敏与匿名化

k-anonymity,l-diversity,t-closeness_ 数据脱敏 t- 亲密度 -CSDN 博客

基本概念

数据以表的形式表示,每一行表示一条记录(record,每一列表示一个属性(attribute。每一个记录与一个特定用户 / 个体关联。这些属性可以分为三类:

  • 标识符(explicit identifiers:可以直接确定一个个体。如:身份证号,姓名等。
  • 准标识符集(quasi-identifler attribute set ):可以和外部表连接来识别个体的最小属性集。如 Figure1 中的 { 邮编、生日、性别 }
  • 敏感数据:用户不希望被人知道的数据。如:薪水、年龄等。可以认为数据表中除了标识符和准标识符之外都是敏感数据。

当公开数据表时,应避免用户的敏感数据被公开(disclosure,也即不能让观察者(observer)者将某条记录和一个确定的用户联系起来。信息公开(information disclosure)可以分为两类:

  • 身份公开(identity disclosure:指可以将用户和特定记录联系起来(link
  • 属性公开(attribute disclosure:当新公开的信息可以使观察者更准确地推测用户的特征时,称发生了属性公开。

另外需要注意的是,我们应当尽量使观察者无法将记录与用户进行连接,而不是使观察者获得错误的信息。因为即使错误的信息也可能给用户带来困扰(比如一个积极阳光的社会主义好青年,天天被推送小电影,这不是坑害祖国的花朵吗

k-anonymity

经过泛化后,有多条纪录的准标识列属性值相同,所有准标识列属性值相同的行的集合被称为相等集。K-Anonymity 要求对于任意一行纪录,其所属的相等集内纪录数量不小于 k

k-anonymity 能保证

以下三点:

  • 攻击者无法知道某个人是否在公开的数据中
  • 给定一个人,攻击者无法确认他是否有某项敏感属性
  • 攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)

攻击方式:

  • 同质化攻击:某个 k- 匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。
  • 背景知识攻击:即使 k- 匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
  • 未排序匹配攻击:当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
  • 补充数据攻击:假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息。

l-diversity

\[ Entropy(E)=-\sum_{s\in S}p(E,s)\log (p(E,s))\ge\log (l) \]

t-closeness

差分隐私

差分隐私:原理、应用与展望(新加坡国立大学 萧小奎)-CSDN 博客

同态加密