DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

破局大数据时代隐私难题,教AI学习“遗忘”或成关键

一年前,欧盟《通用数据保护条例》(GDPR)正式生效,条例中革命性地提出了“被遗忘权”——一项赋予个人的可以删除其在互联网(如搜索引擎或社交网络)已发布信息的权利,“被遗忘权”自被提出以来引起多方热议。

而中国与之相应的数据保护规则在更早的2018年5月1日就已生效,《个人信息安全规范》(“标准”)是中国发布的第一部个人信息保护国家标准,其中规定了个人信息保护的详细要求,并有望成为在中国处理个人信息的良好实践指南。“标准”中首次引入并区分了“匿名化”与“去标识化”的概念。

大数据时代,数字隐私问题成为公众持续关注的焦点之一,政府、企业及媒体也纷纷就如何妥善地收集、存储和使用数据,以及个人信息所有权等问题展开广泛而深入的探讨。然而,在我们竭力解决这一难题时,却往往忽略了另一个关键问题——人工智能(AI)与机器学习正日渐渗透至生活的方方面面,一旦我们的信息数据被输入相应的算法中,我们又该如何掌控这些数据?

一个周知的事实是,几乎每家现代化企业都在以特定的方式收集用户的数据,此外,企业还会存储、分析,甚至售卖、交易这些数据,并用以训练 AI 系统。我们日常的推荐引擎如在线视频推荐、购物推荐等,均由此而来。

但需注意的是,在将数据输入AI后,目前尚无撤回数据或是撤销运算的有效办法。当我们试图行使“被遗忘权”时,摆在我们面前的是从众多企业和数据交易公司收回特定数据的难题。此外,我们面临的另一困局是,即便我们能成功撤回数据,我们又该如何让机器学会“遗忘”某些记忆?

对于当今的“AI一代”,特别是那些尚未成年的青少年及儿童而言,这更是一个需要关注的核心问题。伴随AI成长的他们,经历了有史以来最大规模的“beta 测试”,这一测试并未考虑给予未成年人足够的容错空间,也未将未成年人需要成长空间这一现实考虑在内。举一个例子,算法的“公正与无私”意味着它们在收集未成年人犯罪数据时,并不会“手下留情”,它们将赋予这些犯罪数据与其他数据相同的权重,这些犯罪数据和其他的数据一样,将被AI“记住”。随着数据不断渗进生活,犯罪数据还可能会被强化,修正的机会非常有限。

具体来说,大学招生老师可能会在社交媒体上看到学校申请人的犯罪记录照片,或许还能听到该申请人12 岁时在家中通过亚马逊语音助手录制的语音。

但正如前代人一样,“AI 一代”需要容错空间,也应当给予其足够的修正与规范的时间。

亟待保护的未成年人隐私

纵观以往,无论是完善广告法、消除青少年犯罪记录、亦或是颁布《儿童在线隐私保护法》,我们一直在试图借助不同的举措保护未成年人,给予他们更多的容错空间,这一切基于整个社会的共同信念——成年期与儿童期之间存在明显的界限,我们应对青少年更加宽容,在标准与问责上区别对待。

但今天的未成年人却并不能尽享这样的权利,我们鲜少对数据收集,以及那些渗透至未成年人日常生活中的 AI 进行管控,也鲜少有人认真考虑放任AI的后果。社会往往会对那些如今看起来微不足道的进步展开更严格的探讨,例如,美国政府曾一度十分关注车载收音机的发明,与今天的全民数字自由相比,20 世纪中期的道德恐慌令人费解。

如果我们不去讨论数据收集及AI 驱动型世界对未成年人的影响,就只能对这一切进行想象。犯错之后汲取教训是未成年人在物理世界中学习的方式,但在数字世界中,当 AI 记录、分析甚至共享用户的每一次点击、查看、交互和购买行为时,算法是否能识别过失,并理解过失者的懊悔?又或者说,算法是否会为了自己的目的,通过强化不良行为去推进行动和决策?

我们尤须警惕的是,输入到这些算法中的海量数据,能够支持算法如人类一般凭经验直观地决策。过去的计算机只是简单地执行人类所编写的指令,如今的算法已有巨大突破。现在,先进的 AI 系统可通过分析其内化数据,提出超出人们想象甚至理解的解决方案,许多 AI 系统已成为“盲盒”,其研发人员也无法推断出算法到底经历了怎样的演算,从而做出对应决策。

难解的“大数据”道德困境

使用数字服务时需进行权衡,已成为如今人所共知的事实,但人们并不清楚是,究竟有多少信息会被捕获?这些信息将被共享给谁?以及会被如何使用?在我们眼中,电子邮件地址和出生日期或许只是零散的拼图碎片,但当这些零散的信息源源不断地被计算机算法持续收集时,最终或许会组成令人震惊的信息全景。

一个著名的案例是,2012年《纽约时报》发表了一篇报道,讲述了一家大型零售商的客户预测模型是如何通过一个女孩邮箱中的个性化广告,判断并告知女孩的父亲他十几岁的女儿怀孕了的故事。故事发表至已有7年的时间,这7年间技术不仅更为进步,算法也在持续运行成长。

在2019年的今天,算法可收集的个人信息资料远比七年前更为丰富。上述案例中的青少年女孩也已是成年人,但在AI系统中,关于她曾怀孕的信息将永远存在,谁又有权知晓这些信息?AI系统有权对此做出判断吗?

在中国,AI的使用与个人隐私权的保护仍在博弈阶段。《2018年诺顿LifeLock网络安全调查报告》显示,85%的中国人比以往更加警惕隐私安全,这个比例在全球16个国家中占据前列;40%的受访者认为企业将个人数据的使用控制权交还给用户是“绝对必要的”。根据《南方都市报》今年9月的报道,虽然AI目前在中国的教育行业落地还处于早期阶段,但人脸识别或是电子手环等AI智能系统的使用,被质疑“侵犯隐私权”以及“过度延伸学校管束权利”;而AI在医疗方面的应用上则明显能看出其双面性来:一方面,医疗数据的泄露对一个人未来的生活与工作发展是致命的;另一方面,医疗大数据在提高诊断准确性和优化临床决策等方面发挥着巨大作用,完善数据系统与发展大数据收集与存储等新技术意义重大。

问题的关键正在于此,所有的数据收集和个性化推荐在被恶意使用之前,似乎都是“中立的”,甚至“善意的”。然而AI的由善至恶似乎只是时间问题,展望一下,围绕AI我们还有很多的未解难题,比如,人在去世之后对其个人数据是否还拥有所有权,人在死亡后,AI能否还能将其数据用于AI学习?

物理世界中,我们对自己的财产具有选择权与控制权。比如,在去世前,我们会确认是否同意并愿意进行器官捐献,或是确认个人遗产的继承与归属。但在数字世界中,这一切都无法达成。试想一下,如果一个人在离世后,其身体、财产、精神遗产可被企业永久无偿使用,那会多么令人愤怒,但在数字世界中,这一切都得到了允准。

如果没有适用的法律或规则来设定红线,没有技术用以改变这一“可能的困境”,那么我们将面对一个无人控制的分散系统,算法无法选择“遗忘”什么,又“记住”什么,而负责构建算法的工程人员也没有理由、兴趣,甚至能力来解决这一难题。

教AI学会“遗忘”已刻不容缓

AI始于学术界,甫一出现即出于利他目的。AI 的进步或将给世界带来更多可能,比如它可以帮助解决温饱,治愈病人;企业则借助AI了解客户的需求,提供更好的产品与服务。凭借费用低廉的存储和看似无穷无尽的容量,AI 在世界范围内,都成为了一项极具吸引力的技术工具,但AI在海量收集数据的同时,却无法轻易地“遗忘”数据。

此外, AI 系统虽然具备超凡的记忆力,但并非绝对可靠,研究人员最新的调查显示,AI 可能会在“压力”下泄露秘密与数据。这一发现意味着AI的“无法遗忘”不仅会造成隐私困境,还可能真正引发全球安全问题。

教AI学会“遗忘”在行动上业已刻不容缓。但需要明确的是,AI并非这一切问题的始作俑者,作为研发者的人类才应负起相应的责任。此外,隐私保护并非易事,但我们可以选择制定秩序,重新赋予公众“被遗忘权”。

目前已有实验开始研究潜在的解决方案,但真正的转变仍仰赖包括引领 AI 研发的先进私营实体、技术专家、伦理学家、社会学家、相关学者研究人员以及政府在内的不同组织通力协作,通过共同的努力搭建保障措施框架,以指导AI系统未来几十年内的发展。

【本文作者: 赛门铁克公司大中华区总裁 陈毅威 】

未经允许不得转载:DOIT » 破局大数据时代隐私难题,教AI学习“遗忘”或成关键