1.1 背景
2017年5月,《经济学人》(The Economist)发表封面文章,将数据比作“这个时代最宝贵的资源”[1]。互联网时代,一切基于数据。人们在日常生活的各个环节中,无时无刻不在产生数据,同时也在消费数据。随着人工智能的兴起,数据的巨大价值被前所未有地发掘出来。2019年9月,在杭州召开的云栖大会上,阿里巴巴董事局主席张勇表示:“如果说大数据是石油,算力就是发动机,它们共同构成面向数字经济时代的核心能力。”当忙碌的白领在午间打开外卖App,挑选着平台推荐的美食的时候,当辛苦经营的小商户通过网上银行,享受着安全快捷便利的金融服务的时候,当出租车司机根据导航软件挑选最优驾驶路线的时候,大数据和人工智能都在这些场景的背后起到了关键的作用。
随着大数据与人工智能全面和深入的发展,数据孤岛成为一个横亘在前进道路上的巨大障碍。例如,当一个医学研究者试图通过人工智能的方式来攻克一个疑难杂症的智能诊疗方案时,他需要大量的详尽的该病症的病例信息,但是这些信息散落在各个医院和医疗机构之中,由于该病症的稀有性,任何一家医院或者机构都无法凭借自身的数据单独完成该项工作的研究。很显然,如果各家医院可以打破数据孤岛,共享数据,共同来完成这项研究,将是该病症患者的一大福音。除此之外,数据共享还扩大了训练样本的规模,提高了人工智能模型的预测准确度和泛化能力,从而达到“1+1>2”的效果。总之,多方之间的数据共享已经成为使得数据价值能够得到更加充分发挥的至关重要的一环。
然而,越来越多的事实表明,数据共享在产生巨大经济价值与社会价值的同时,也带来了个人隐私泄露与数据滥用等巨大的风险。信息时代,个人信息泄露事件时有发生:2006年,美国在线(American Online,AOL)公开了包括65万用户数据的匿名搜索记录以用于学术研究。虽然出于保护用户隐私的需要,该公司在公布数据时将用户的姓名替换成了匿名ID,但是后续研究发现,事实上,无须用户姓名也能通过搜索关键字将匿名ID匹配到真实用户。最终,AOL为此受到起诉并付出了高达500万美元的赔偿;2018年3月,英美媒体曝出美国社交媒体脸书(Facebook)多达5000万用户信息泄露;2019年12月,Elastic-search数据库泄露,包括27亿个电子邮件地址,其中10亿个密码都是以简单的明文存储的;2020年2月,美高梅公司超过1060万酒店客人的个人信息泄露,包括客人的姓名、家庭地址、电话号码、电子邮件和出生日期等。这些隐私泄露的恶性事件在给受害者本身造成伤害的同时,也引发了普通民众对于信息社会中个人数据安全的担忧。从长远来看,对于数据隐私的保护不但使人们应有的隐私权益免受侵害,也有利于整个大数据和人工智能行业的健康平稳发展。
因此,如何在保护隐私的情况下,进行数据共享,完成多方联合智能计算,成为当前学术界与工业界的热门课题。我们把在有多方参与且各方互相不信任的场景下,能够聚合多方信息,并保护数据隐私的智能计算范式,称为隐私保护机器学习。可共享与安全性是隐私保护机器学习的重要特点。