手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 热点 >

鱼与熊掌可以兼得

时间:2021-01-06 09:42|来源:网络整理|编辑:采集侠|点击:

鱼与熊掌可以兼得

——“联邦迁移学习”直面小数据与隐私关切挑战

前海微众银行、香港科技大学  杨 强

北京航空航天大学计算机学院  童咏昕  王晏晟

鱼与熊掌可以兼得

 

人工智能领域目前的发展十分迅猛,具有广阔的市场前景。2018年,独立咨询公司Gartner提出,到2022年,人工智能的商业价值预计会达到3.9万亿美元。中国方面,清华大学发布的《中国人工智能发展报告2018》显示,2017年中国人工智能市场规模达到238亿元,同比增长67%,预计2019年我国人工智能市场增速将达75%。

除了市场的普遍看好,中国政府也十分重视人工智能领域的发展。在2017年相继印发《新一代人工智能发展规划》和《促进新一代人工智能产业发展三年行动计划》,旨在抢抓重大战略机遇,引导产业发展。

算法、算力和数据是支撑人工智能发展的三大基石。近年来,以深度神经网络为代表的机器学习算法蓬勃发展,计算机硬件不断升级,算法和算力不足的问题已经初步得到了解决,互联网大数据的兴起又解决了过去数据不足的问题。人工智能的第三次浪潮席卷而来。

 

鱼与熊掌可以兼得

人工智能遭遇两大困境

既然我们终于打破了过去限制人工智能发展的种种阻碍,那么,未来人工智能的发展道路是否就一马平川了呢?

现实并没有那么简单,尤其是大数据的需求还远没有得到满足。大部分企业和机构所拥有的很多是小数据,而且数据孤岛现象日益严重。社会对隐私安全的关切也日益加强,立法机构纷纷引入数据保护和隐私权益的相关法案。这些因素,使得数据的获取、交换、聚合成了大问题,而这些困境很可能导致这次人工智能浪潮因数据的制约再次陷入低谷。

首先,小数据问题极大地制约了大数据的可用性。虽然互联网每天产生数以亿计的数据,然而其中真正有用的高维度、高质量数据却很少。除此之外,数据的标签对于进行人工智能的分类任务必不可少,但是大多数数据都缺少分类标签,且获取标签的成本巨大,数据标签的拥有方(如金融机构)和用户行为数据的拥有方(如互联网企业)不能简单地把各自的数据互通。在医疗领域,对数据进行标注的必须是具有专业素养的医生,但是医生的工作时间有限导致标注量稀少,极大限制了高质量数据的产生。有人估计,如果把医疗数据交给第三方公司标注,需要一万人用十年的时间才能收集到有效的数据。由此可见,人工智能在小数据和数据孤岛问题上面临着严峻的形势。

其次,近年来人们对数据隐私保护的关切,导致大数据难用的困境雪上加霜。2018年欧盟出台了《通用数据保护条例》(General Data Protection Regulation,GDPR)来保护欧盟公民的数据隐私,违者会面临巨额罚款。该法案的很多规定都会给人工智能带来影响,尤其是在数据使用方面。比如,用户不仅可以拒绝贡献出自己的数据,还可以反悔并撤回已经提交的数据。由此可见,如果数据收集方不能给出让用户放心的隐私保护方法,数据不足的问题会成为人工智能发展的障碍。

即使用户同意贡献出数据,也必须保证数据不能离开收集方,这就对目前常见的多方合作训练模型的模式产生巨大冲击。例如,多家零售企业的数据无法联通形成大数据,因此每家公司只能用自己的小数据训练出效果比较差的模型。这也就是通常我们所说的“数据孤岛”问题。对隐私的关切使得数据之间像孤岛一样被分隔开,无法汇聚在一起产生更强大的作用。

总之,小数据与隐私关切这两大问题在“数据”这块基石上产生了裂痕,随时有可能让人工智能再次陷入低谷。

 

鱼与熊掌可以兼得

两大困境期待解决方案

事实上,目前已经有一些针对这两大困境的解决尝试方案。但是,这些方案都比较孤立,没有在真正意义上完全消除大数据使用的隐患。

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP