大数据安全与隐私保护 ¶
约 987 个字 预计阅读时间 4 分钟
大数据隐私保护关键技术解析:数据脱敏、匿名化、差分隐私和同态加密 - 安全内参 | 决策者的网络安全知识库
数据脱敏与匿名化 ¶
k-anonymity,l-diversity,t-closeness_ 数据脱敏 t- 亲密度 -CSDN 博客
基本概念 ¶
数据以表的形式表示,每一行表示一条记录(record
- 标识符(explicit identifiers
) :可以直接确定一个个体。如:身份证号,姓名等。 - 准标识符集(quasi-identifler attribute set ):可以和外部表连接来识别个体的最小属性集。如 Figure1 中的 { 邮编、生日、性别 }。
- 敏感数据:用户不希望被人知道的数据。如:薪水、年龄等。可以认为数据表中除了标识符和准标识符之外都是敏感数据。
当公开数据表时,应避免用户的敏感数据被公开(disclosure
- 身份公开(identity disclosure
) :指可以将用户和特定记录联系起来(link) 。 - 属性公开(attribute disclosure
) :当新公开的信息可以使观察者更准确地推测用户的特征时,称发生了属性公开。
另外需要注意的是,我们应当尽量使观察者无法将记录与用户进行连接,而不是使观察者获得错误的信息。因为即使错误的信息也可能给用户带来困扰(比如一个积极阳光的社会主义好青年,天天被推送小电影,这不是坑害祖国的花朵吗
k-anonymity¶
经过泛化后,有多条纪录的准标识列属性值相同,所有准标识列属性值相同的行的集合被称为相等集。K-Anonymity 要求对于任意一行纪录,其所属的相等集内纪录数量不小于 k
k-anonymity 能保证 ¶
以下三点:
- 攻击者无法知道某个人是否在公开的数据中
- 给定一个人,攻击者无法确认他是否有某项敏感属性
- 攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)
攻击方式:¶
- 同质化攻击:某个 k- 匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。
- 背景知识攻击:即使 k- 匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
- 未排序匹配攻击:当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
- 补充数据攻击:假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息。
l-diversity¶
\[
Entropy(E)=-\sum_{s\in S}p(E,s)\log (p(E,s))\ge\log (l)
\]
t-closeness¶
差分隐私 ¶
差分隐私:原理、应用与展望(新加坡国立大学 萧小奎)-CSDN 博客