讲堂 | 刘铁岩：跨界共创AI的产业价值和科学价值

MSRAsia | 2021-07-04 18:45:14 阅读：381

编者按：第四届微软亚洲研究院创新论坛近日成功举办，大会以“跨界共创”为主题，就跨领域融合创新、共创精神推进数字化转型、如何让技术创新成果成功落地等话题进行了探讨。

在论坛上，微软亚洲研究院副院长刘铁岩从技术的角度分享了 AI 跨界共创的产业价值与科学价值。他认为虽然 AI 已经取得了突飞猛进的发展，但仍然有非常长的路要走，尤其是在产业价值和科学价值方面。究其原因，今天的 AI 只是在一些相对浅层次的领域发挥着作用。如果想真正实现人工智能的价值，就需要各领域的合作伙伴一起顶天立地、跨界共创。

微软亚洲研究院副院长刘铁岩

人工智能方兴未艾，世界上几乎所有的头部企业如今都在人工智能方面有巨大的投入。展望全球人工智能市场，未来5年还会有非常高速的发展。人们不禁会问：人工智能技术是否已经足够成熟？是否有一些方向和领域需要我们特别重视？作为人工智能的学者，我们认为人工智能仍然有非常长的路要走，尤其是在它的产业价值和科学价值方面。

人工智能的价值现状

从某种意义上讲，目前，人工智能还是在一些相对浅层次的领域发挥着作用。例如人工智能中的深度学习在人脸识别、语音识别、自然语言处理这些人机交互界面上应用非常广泛；强化学习在虚拟的或者封闭的问题上表现良好，比如游戏、机器臂控制等相对环境简单、规则清晰的问题。虽然人工智能在工业界核心的决策问题上应用前景广泛，但其今天的作用仍然十分有限。在很多重要的环节中，人工智能与人的能力相比还是有所差异，传统运筹学仍是很多行业的标准解决方案。

人工智能在科学领域有何价值？目前人工智能主要在一些辅助问题上发挥作用，例如对噪声数据进行预处理，对光谱数据、天文图片进行模式识别，或者是对一些已有的数值仿真算法进行加速和拓展。尽管近期出现了一些利用人工智能和大规模算力改变科学发展现状的工作，如 AlphaFold2 破解蛋白质折叠、Deep Potential 进行分子动力学模拟等，但是所有这些工作目前还只是星星之火，尚未形成燎原之势。

在这样的大背景下，作为人工智能学者，我们认为，要让人工智能对滚滚的历史车轮产生更大的推动作用，除了在“自我的世界”里关注算法和理论的研究以外，还需要能够“顶天”、“立地”，跨界共创，真正让人工智能创造更多的产业价值和科学价值。

人工智能的产业价值生成路径

如何才能让人工智能实现更多的产业价值呢？为了寻求这个问题的答案，微软亚洲研究院于2017年成立了“创新汇”，与近50家各领域企业开展合作，进行了数百次的交流，完成了十余个联合研究项目。这些项目横跨金融、物流、医****、电信、教育、政务等多个行业。在开展这些联合研究的过程中，我们秉承着初心，不仅要帮助各个企业解决现实中的技术挑战，实现数字化、智能化转型；更重要的是从这些项目中抽象出行业的核心痛点，设计解决这些痛点的人工智能共性技术，为人工智能真正创造产业价值奠定基础。

以金融投资为例，微软亚洲研究院已经和资管行业的领头企业华夏基金合作超过四年的时间了，我们共同耕耘、共同分享、共同探讨，形成了一系列对于金融资管和智能投资领域核心痛点的认知。首先，我们发现尽管金融数据很丰富，但信噪比非常低，所以很难挖掘出有效的信号。其次，金融市场动态变化，异常迭起，这对基于统计学习的方法提出了巨大的挑战，因为面对复杂的金融市场，我们很难假设数据是独立同分布的。第三，金融领域中，风险和收益是一对双生子，“投资有风险，入市需谨慎”，一个高手之所以成为高手，不仅在于他能够发现一般人所不知的投资信号，更在于他善于管理风险，能够避免收益的“昙花一现”，成为一个常胜将军。最后，从识别出有效的信号，到构建投资组合，再到真正执行订单，投资链条非常长，而且只有有效实现预期订单的买卖，才真正完善整个投资链条，也才能得到想要的投资回报。

针对这些痛点，在过去一段时间里，微软亚洲研究院和合作伙伴一起研发了大量的人工智能技术。在数据端，高频交易数据蕴含丰富的信息，但又含有大量的噪声，所以很多做中低频投资的机构或个人很少利用高频交易数据，而对高频数据非常感兴趣的人则在研究日内的算法交易。于是，我们想问：高频的交易数据是否可以对中低频的投资，例如日频、周频、月频的投资产生本质的影响？

人工智能的优势在于能够以人所不能及的细粒度和高通量分析数据。当我们面临的数据是高频数据时，需要处理的就是抑制噪声，并从海量数据里抽取有用信息。以此为目的，我们研发了一套自监督对比学习技术，它将时空的依赖关系作为约束，去其糟粕，取其精华，希望能够从高频数据中抽取有效信号。当我们使用这种自监督对比学习的方法后，与只使用日频数据或者使用高频和日频结合的数据相比，新方法都有更好的表现，能够获得稳定的信号。

针对市场动态性方面的挑战，微软亚洲研究院开发了一套基于注意力机制的神经网络，它可以自动判断当前市场是否处于异常状态。如果异常，我们就会建议投资机构采取一些被动的投资手段。如果这个市场在历史上似曾相识，我们就会利用注意力机制，从历史数据里寻找到最适用于当前市场的信息，通过数据或规律，让投资机构能够在金融市场的风云变幻之下，总是立于风口浪尖上，获得稳定的投资回报。

同样，关于风险控制，这是一个非常持久且重要的话题，只有我们对风险有了非常好的控制，才能实现稳定的投资。虽然这个话题很重要，但是在历史上人们对风险因子的研究道路崎岖、发展缓慢。历史的做法通常是，由专家定义出少量用来解释当前市场的因子，然后考察特定投资组合在这些因子上的暴露情况。从经典的 CAPM 模型发展到 Fama TFM 模型历时31年，仅增加了 Value、Size 几个少量的因子。而从 Fama 模型进化到当前大多数投资机构都在使用的 BARRA 模型，又经历了20年，也不过只增加了成长、动量等少数因子。而人工智能则可以通过优化的手段，自动找到对市场有最佳解释能力并且彼此相互独立的非线性风险因子，同时还可以对预测模型自身带来的风险进行刻画和消减。这样一来，我们用人工智能的手段去做风控，就可以比人类专家更周全、更系统、更及时。

最后，订单的执行同样非常重要，但非常困难，因为在日内的整个市场波动更加剧烈，基于简单的规则去做订单交易，通常很难实现非常理想的平均交易价格。我们和合作伙伴一起探索了用强化学习的方法来做自动订单交易，这种方法可以在非常细的粒度下明察秋毫，找到执行订单的最佳时机和最佳执行速率，从而大幅度降低交易成本，获得良好的预期平均交易价格。一旦投资机构可以非常好地控制交易成本，那么久可以为寻找最佳投资组合创造更大空间，从而有更加亮眼的表现。

上述研究不是纸上谈兵，我们和合作伙伴一起在实盘上进行了大规模的测试。测试结果与中证500指数相比，获得了非常明显的超额收益。尤其在今年年初，市场有些动荡，很多基金“崩盘”的情况下，我们的技术更是表现非常稳健。

基于这些研究和探索，我们希望把我们的所思所得和技术积累与更多企业、客户进行分享，所以我们构建了一个智能量化投资的共性技术平台，希望通过这个平台能够打通智能投资的研究和实战，降低技术投资的门槛，规避潜在的技术陷阱，为从业者和研究者提供一个非常接近实盘的回测环境。2020年下半年，我们将这样一个平台进行了开源——AI 量化投资开源平台 Qlib。目前 Qlib 获得了业界广泛的关注，在 GitHub 上收获了超过5000颗星，并且也正是因为开源项目 Qlib，有很多国际知名的投资机构正在和我们进行交流与合作。

除了金融投资以外，微软亚洲研究院也与其他行业的合作伙伴进行了非常深入的互动，获得了很多有价值的洞见。举个例子，资源优化、时空预测是非常多的领域所共同面临的问题，绝大部分资源优化的场景都会有如下痛点：优化链路长，无法及时获得反馈信号；优化链路上的多个目标可能彼此之间互相矛盾；全局优化问题太复杂，几乎是一个不可能完成的任务。

同样，时空预测也有一些共性的特点，例如数据噪声大，信息缺失严重；时序的模式非常多样，有趋势、周期、突发信号；空间结构很复杂，经常会出现一些层次化的结构，使得我们不能够单一地在单点上进行预测。

认识了这些挑战之后，我们和合作伙伴共同开发了一套多智能体资源优化的共性技术框架。该框架只需要经过非常轻量级的定制就可以帮助客户搭建起属于自己的模拟器，并且还可以用强化学习的手段训练一个高效的智能体，帮客户实现资源优化。而且我们可以很轻易地帮助客户把这个模型部署在一个分布式集群上，实现他们的日常运营。目前，这个框架已帮助包括东方海外航运在内的多个客户实现了更加高效的日常运营，提高了效率，降低了成本，获得了更好的资源利用率。

没有止步于此，我们希望这些合作的结果能够被更多的用户所使用、体验，帮助他们实现数字化转型，所以我们开源了多智能体资源优化平台“群策 MARO”，目前已经有很多客户都在试用 MARO。

为了处理时空预测的核心挑战问题，我们开发了一套时空预测的共性技术，包括多路深度时序编码集成的模块、可解释的正则通路、可以自动学习网络结构的图神经网络、可根据外部突发事件调整预测结果的门电路模块等。正是因为这些复杂的设计，我们的模块和整个框架可以在一些非常困难的问题上取得亮眼的效果。目前，我们已经与合作伙伴在医疗、物流、电信领域做了非常多实际数据的测试，例如我们利用该技术帮助一些企业实现了物流订单的精准预测，帮助糖尿病病人实现了血糖波动的精准预测，也帮助电信企业实现了未来一段时间内在某些域名下流量波动的预测。

除了与这些企业共同推进技术的应用以外，我们也把这个技术框架应用到了新冠疫情的管控和抗击方面。在新冠疫情肆虐全球的大背景下，美国疾控中心公布了大量关于疫情的数据，同时向全世界最顶级的科学机构发出求救，希望各大科研机构可以通过技术手段帮助疾控中心预测未来一周到四周内疫情的****，并且帮助疾控中心以及政府基于数据结果进行相关政策的制定。因为我们有非常成熟的时空预测技术，所以我们基于新冠疫情的数据训练了一个可以进行未来一周到四周的疫情****预测模型，并且在2020年下半年，代表微软公司向美国疾控中心提交了这个模型。在超过半年的时间里，该模型表现非常亮眼，在绝大部分时间里，它的表现和性能都力压其他四十几个全球顶级科研机构的模型，排名第一，为全球抗击新冠疫情、制定合适的防疫政策做出了重要的贡献。

人工智能的科学价值生成路径

通过“创新汇”，微软亚洲研究院和各行各业的合作伙伴进行了非常深入的交流与合作，也对各行各业有了更深入的认识。这个跨界的体验让我们这些人工智能学者收获良多。展望未来，我们相信有更多行业可以被我们的人工智能技术激活。做有用的人工智能，我们一直在路上。

但是另一方面，作为人工智能学者，我们从来没有忘记，“抬头仰望星空”的使命。所以我们也在一直思考如何用人工智能技术、机器学习技术去推动基础科学的进展。

《科学》杂志在其成立125年周年的时候，发表了当前世界上最重要的125个现代科学问题，这些问题里绝大部分是关于生物学、物理学和环境科学的，这些问题关乎宇宙的奥秘、生命的起源以及人类的生存和可持续发展。我们相信，如果能够用机器学习、人工智能的手段推进这些问题，我们将有望打开通向未来的大门。

所以在过去的两三年间，微软亚洲研究院在智能科学领域有了非常周全的布局和有益的尝试，我们关注的主要是智能生物学、智能物理学和智能环境科学。这个过程是一个非常美好的跨界体验，微软亚洲研究院与清华大学、复旦大学、麻省理工学院、东京大学在内的高等院校，Baker Lab、Broad Institute 和中科院在内的科研院所，以及像 Adaptive Biotechnology 这样全世界生物科技领域领先的创业企业，都进行了非常密切的合作，产生了大量的研究成果，并且最近在《Nature Communications》、《Bioinformatics》、《Environmental Science and Technology》等科学领域的顶级期刊上发表了大量论文。

那么我们是如何与合作伙伴一起共同发现核心痛点问题，并且提供人工智能解决方案的呢？以生物学为例，我们和合作伙伴们共同发现，在生物学领域结构数据的缺失是一个非常大的痛点。近年来随着高通量测序技术的成熟，每日每夜都在生成海量的无标注组学数据，可是通过像冷冻电镜这样的手段去获得高质量的结构数据，成本仍然非常高，所以导致此类结构数据相对稀少。在生物领域，结构决定功能，如果我们没有高质量的结构数据，就很难真正推动生物问题的求解。

而在生命科学领域，个性化的需求同样非常强烈，因为每一个生物个体都有所不同，就像人类一样，千人千面，只有真正去理解每个人的不同，才能避免基于共有特征的数据模型迁移性差的事实。正是因为结构数据的缺失，结构预测和分子动力学模拟变得非常重要。结构预测可以帮我们从序列化的组学数据出发，生成一个静态的结构，而分子动力学模拟则可以在此基础上提供一些动态的细节，包括不同构向之间的转化。由此可见，人工智能确实可以帮助我们理解生物的功能以及功能的演化。

过去一年，微软亚洲研究院使用人工智能技术，建立了一个大规模的分子动力学模拟系统，并且使用这个系统对新冠病毒 S 蛋白的动态变化进行了深入分析，我们发现了一些非常有价值的科学结论。例如，我们发现新冠病毒 S 蛋白一直在具有高传染性的开构象和低传染性的闭构象之间做着构象的转化，而在这个转化过程中，S 蛋白的 NTD 部分起到了非常关键的作用，它就像一个楔子，可以促进或者阻止这种构象的变化。

如果我们能找到可以和 NTD 进行结合的某种****物，那么就有机会降低新冠病毒感染人体细胞的能力，从而有可能会缓解它所造成的症状，或者是降低它的传染率。抱着这样一个愿望，我们使用了高通量的****物筛选技术，从2亿3千多万种化合物中，找到了超过1千种与 NTD 有很强绑定关系的化合物。另外，我们还分析了在中国抗击新冠病毒中常用的一个中****：清肺排毒汤。在它已知的成分里，我们发现了至少有18种化合物与新冠病毒的 NTD 蛋白有非常强的绑定关系，这也从某种意义上解释了为什么清肺排毒汤在处理和缓解新冠症状上有非常好的表现。

此外，个体差异方面同样非常重要。我们每个人都有不同、大量的私有免疫细胞，体内的微生物菌群也大相径庭。所有这些私有的生物属性很大程度上影响了人类的健康，以及个体对于不同疾病抗原的反应和****物的耐受程度。只有对它们进行精准的刻画，才能实现真正意义上的个性化医疗。

因此，我们和美国的 Adaptive Biotechnology 公司一起，利用人工智能的手段，建立起了世界上第一个人类私有免疫细胞和各种疾病抗原之间的对应关系图—Antigen Map。基于这张对应图，我们就可以在很多疾病上做出精准的预测和治疗。也正是因为这项技术，我们和 Adaptive 共同创造了世界上首款 FDA（美国食品****品监督管理局）批准的基于人体免疫细胞的新冠检测手段 T-Detect COVID。该检测手段比我们常常听到的核酸检测和抗体检测更精准、更及时。因为包括 T-Detect 在内的创新技术，微软最近被 Fast Company 快公司评选为 “World Changing Company of the Year（年度改变世界的公司）”。

除了生物学以外，微软亚洲研究院在其他行业、其他科学门类里也做了很多探索。例如，我们发现高效的数值仿真是物理学、环境学等多个科学门类的痛点之一，这是因为真实世界的实验代价高昂，而实验前的仿真是推动这些科学发展的重要手段。但是多尺度、高维度、高精度的仿真需要巨大的运算量，这在很多情况下都是不可能完成的任务。而人工智能在解决这一挑战方面有着巨大的潜力，比如，深度学习凭借它卓越的逼近能力，有可能可以替代耗时的数值计算模块，而强化学习则可以高效地探索状态空间和构象空间，加速数值仿真的进程。

我们提出了一个基于神经网络来学习求解多尺度偏微分方程的算子，它不需要大量的训练数据，可以直接从物理规律中学习，同时还可以通过 GPU 加速，使解题速度比传统的数值解法提高几个数量级。利用这样的新技术，在精度与传统数值解法相当的情况下，我们以10倍的速度成功求解了描述大气湍流的大规模纳维-斯托克斯方程，这对于环境建模、气候预测都可能产生革命性的影响。

除此之外，我们还对大气里的物理化学反应有了更加深入的洞察。我们发现，大气物理化学反应中存在一些深刻规律，通过拆解化学平衡常数和反映关系函数，在常数复杂度下就可以实现高效的大气反映曲面估计，这与传统方法相比是成千上万倍的加速。基于这个技术，我们可以对大气污染物的扩散进行非常精准的预测和仿真，而该技术目前已经在多个国家的大气污染治理中扮演着重要的角色。并且所有这些努力也都在践行着微软公司在负碳计划方面的承诺。我们相信以智能科学之矛，攻环境污染之盾，是我们每个人的使命，虽然任重道远，但是我们责无旁贷。

展望未来，除了生物学、物理学、环境科学以外，其实还有太多的空间值得我们用人工智能去探索，无论是用人工智能助力电池材料的设计，助力碳捕捉和碳存储，还是去探索行星的前世今生，甚至发现全新的基于数据驱动的物理定律，我们都有着无限的想象空间。

我们相信，未来这种产业和科学的智能化进程还会有非常广阔的空间，人工智能在其中也会扮演越来越重要的角色。微软也将继续秉承自身优势和平台公司的定位，推出更多的开源项目、共性技术，助力产业界和学术界的长足发展。我们坚信，只有借助整个社会的力量，借助整个学术界的力量和产业界的共同努力，我们才能真正推动整个世界智能化的进程。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。