首页 > 第二期> 正文
沈连丰:联邦学习如何助力企业创新
2022-01-05

10月16日由中国科学技术协会主办,中国科协企业创新服务中心和中国通信学会承办的2021“科创中国”企业创新大家谈第二期活动在江苏无锡举办活动以“数字化转型与企业创新”为主题,围绕解读国家相关政策和规划纲要,分享数字化转型创新成果进行深度交流对话,推进信息通信技术与工业经济深度融合,赋能传统产业转型升级。主旨报告会上,东南大学移动通信国家重点实验室沈连丰“联邦学习及其在企业创新中的应用”主题进行分享

沈连丰认为,联邦学习本质上应该是在机器学习的范畴,关于人工智能,例如人机对弈,实际上是总结了30万局的棋艺,看起来是一个机器人跟人在下棋,实际上是一个庞大的团队在跟一个人在下。

人工智能在进行大数据分析和建模的时候,通常是把分布在网络设备中的海量数据进行集中式的存储和处理。比如两个公司简单的数据交换都存在着很多法规所不允许的情况,原因在于数据是用户所拥有的,越来越多的国家规定这些数据如果没有得到用户的允许是不可以随便乱用的。商业公司所拥有的数据往往有着巨大的潜在价值,包括每个人的个人数据都存在着很大的商业价值,这样相互之间是不可以交换的,交换以后存在着很大的问题。

用机器学习来感知环境、获取知识,这个时候给用户的隐私保护和数据安全就带来了比较大的困难,这就是我们所面临的一个问题。

如何在满足数据隐私安全监管的前提下,设计一个机器学习的框架,既能够满足国家的法律法规不把这项数据泄露,又能够解决问题,这个模型又好用,解决数据孤岛的问题,这是一个出发点。

研究的结果,有些人提出了所谓的联邦机器学习,把研究的重点转移到如何解决数据孤岛的问题,于是就出现了联邦机器学习,并且认为联邦机器学习是解决上面这个问题的一个可行的解决方案。

首先是5年以前Google提出来,核心思想是参与方通过自身算力对本地数据进行模型训练,旨在与中央服务器的往复通信过程中交互模型的参数信息,从而使得联邦建模的效果和将整个数据集放在一起集中建模和训练的效果,能够大致相同或者参与方对这个模型能够有益,能够得到应用。使各个智能体在不共享数据的情况下能从技术上打破数据孤岛,实现人工智能的协作,降低智能体隐私泄露的风险。

根据这个定义,联邦学习总结了五个特性:

一是各方数据都保留在本地,不泄露隐私、不违反法规(只上传参数);二是多方联合数据建立在虚拟的共有模型、共同获益的体系(联邦平均、任务激励);三是各方身份和地位平等(用户可靠性、数据质量有差异);四是在各方数据对齐或特征对齐的条件下,联邦学习的建模效果和将整个数据集放在数据中心建模的效果相同向相差不大(横向联邦、纵向联邦);五是迁移联邦学习。

构成主要是三大要素:数据源、联邦学习系统以及用户。在联邦学习系统下各个数据源进行数据的预处理,共同建立机器学习模型,并且将它输出结果再反馈给用户。也就是说它要先把学习的结果,把参数要向公共网络进行输送,大家学习的结果学习的模型再送给用户,经过多次的反馈,形成一个前面说的大家都有用。在这样一个构思下,大家积极参与,要把参数向上,有用没有用,结果要反馈。构成的要素,首先要考虑目标函数,考虑约束条件以及目标。

这是激励机制,这是两个方面,所有的机器学习总归是有这个激励机制让大家积极参与,能够获益,能够使得大家能积极参与才能获益,要做一些制度设计。

实际的应用,有两个方面,一是关于辅助治疗,在十大示范工程里就有智慧医疗。实际上用人工智能学习的方式来进行智慧医疗,已经有了40多年。南京中医药大学通过人工智能把老中医的一些经验形成机器对话,有很多新的概念加进来,其中联邦学习是新的概念,也把它加进来。

沈连丰认为这是可以把更多的数据源能够进行联合学习,如果有更好的模型,再反馈到各个数据孤岛,各个医院或者各个医生,大家积极地参与。通过我们的机制,如果能够积极地参与这种活动,就可能会获益多一些,越积极获益越大,基本上以这样一个思想来做。

在江苏省物联网示范工程里,现在的工信厅,已经有很多医院都做了用类似于物联网的概念来进行人工智能的方法。确实会存在着数据会不会泄露,跟现在联邦学习所说的面临的这个情况是具有极大的吻合性,所以通过联邦学习有可能能够解决。

第二,自动驾驶。主要是在雾天的盲驾驶,在南方一年大概有三个季节会上大雾,有大雾高速公路是不能上的。在雾天的辅助驾驶,通过各方的学习,通过电子屏幕来开车,不是看着外景来开车。后来逐渐地被人工智能自动驾驶,现在从L1到L5,很完善的一个自动驾驶的思路。自动驾驶非常有潜力,联邦学习在自动驾驶方面也有它的用武之地。