PII，匿名数据和大数据隐私

你知道，大多数美国人（87％）都可以被唯一从刚刚三块个人资料认定：出生日期，五位数的邮政编码和性别？几分令人不安的，对不对？

这经常被引用的统计，最初报道15年前的2000卡内基梅隆大学文对个人身份信息（PII）。即使日期已经改变，因为这个报告的数据量已成倍增长，面临的挑战仍然是相同的：保护一个人的个人身份隐私的名称。

PII是在匿名数据辩论的心脏。在我过去后，我揭穿一个信念有关匿名数据，分别是：匿名数据保留我个人的身份不被泄露。更准确的说法我建议是：可以重新确定从匿名数据个人。让我们来探讨这个远一点。

关于PII和匿名数据。什么意思匿名（或去识别）的数据？简单来说，这意味着除去从数据集，可以亲自识别特定个人的任何信息; 例如，该人的姓名，信用卡号，社会安全号码，家庭住址等出售消费者的数据，如数据经纪人，通常仅出售匿名，并且经常聚集，数据公司。所以，如果PII从这些数据集剥夺（如下面的图所示），有什么大不了的？

如果我们谈论的是一个单一的数据集（如上面的例子），那么它可能不是什么大不了的事。它变得有趣，虽然是在多个数据集相结合。下图是一个什么样的数据聚合器（或经纪人）不与数据集的简单的观点：

这两个数据集可以是完全无害的，但是，当汇聚并随时间进行分析，它们可以引入新的隐私问题。微软的辛西娅Dwork说明了这种方式：“什么是学习，我买面包的危害？有在学习，没有坏处，但如果你发现，随着时间的推移，我不再买面包，你可以得出结论，也许我有糖尿病……什么是怎么回事是保密机制失效;他们不构成有效的。“

为什么这样重要。让我们回到我刚才的问题：如果我的个人身份信息（PII）被剥离出来，聚集在它之前出售或被传递下去，有什么大不了的？

大不了是这样的：今天的大数据技术，它变得更容易从这种匿名数据重新识别个人。编程技术继续发展，从一个或多个数据集拉这些匿名碎片重新走到一起。因此，如果一个公司说，它传递给它推给别人之前，匿名化的数据，要知道你的身份仍可以通过先进的再识别技术透露。

其实是有一场激烈的争论，是关于这一点。一个阵营坚定支持的技术和算法被用来匿名数据; 而且他们相当有信心，个人不得重新认定可因为技术只是不存在。对方阵营并不买账，并说，重新识别算法，其实，工作只有越来越好。他们还指出了如何一些目前正在使用的简单的匿名技术不起作用。

我倾向于同意后者阵营。即使它不是现在发生的事情，这只是时间早晚的问题的技术和算法上升到复杂，不仅一定程度再确定个人的速度更快，但这样做更快，更便宜。

最后一个想法。重新识别算法是没有好坏之分; 它只是取决于他们如何使用。所以，当一个善意的公司或券商的数据告诉你，你的个人信息受到保护，不与共享或出售给他人，这是不是让你放松警惕的邀请。你怎么知道它现在的工作，所以采取谨慎和警惕。

转载请注明：数据分析 » PII，匿名数据和大数据隐私

PII，匿名数据和大数据隐私

PII，匿名数据和大数据隐私

全部评论: 0 条

本文目录

热门标签

广告位

热门文章

阿里云新老用户最新优惠

最新发布

最新评论