孙凝晖院士:“AI 赋能科学发现” 最大作用是突破人类认知极限

近日,由中国计算机学会主办的第 21 届全国高性能计算学术大会在内蒙古鄂尔多斯召开。大会上,中国工程院院士、中国计算机学会理事长孙凝晖在题为《AI(人工智能)赋能科学发现》报告中,分享了对这一备受关注话题的深入思考。

“第五范式” 登上历史舞台

孙凝晖首先谈到,“科学智能” 即 AI for Science,也就是 “AI 赋能科学发现”。这一研究范式的诞生,源于 AlphaFold 在蛋白质结构预测方面取得的重大突破。2020 年,AlphaFold 在 CASP14 大赛里成功预测了三分之二的目标蛋白结构,就此拉开了基于 AI 预测蛋白、核酸等分子结构的序幕。

2024 年诺贝尔物理学奖和化学奖授予了 AI 基础理论和科学发现领域的科学家,这充分彰显了对 AI 的 “青睐”。孙凝晖认为,这一举措标志着国际学术界已认可 AI 技术正式踏入科学领域,“代表着科研范式发生了重大变革”。

孙凝晖表示:“融合了大模型、大算力、大数据以及大团队服务等特点的科学研究,对科学发现所起到的作用,如同大科学装置一般,已然成为一种新范式。” 他进一步解释,新范式的形成,除了 “大模型、大算力、大数据” 这些要素外,还离不开物理、化学、生物、AI 等各个领域科学家和工程师团队的长期努力,以及企业资金的有力支持。

孙凝晖指出,在 “AI 赋能科学发现” 之前,现代科学活动存在 4 种范式,分别是基于实验观察的科学实验范式、依靠科学家进行理论推演的范式、借助计算设备开展科学计算或数值模拟的范式,以及基于实验和理论数据计算的科学数据范式。如今,“AI 赋能科学发现” 作为 “第五范式”,正大踏步登上历史舞台。

帮助科学家从 “增肌强体” 到 “赋予大脑”

那么,AI 究竟如何赋能科学发现呢?孙凝晖提出,从信息化视角来看,“AI 赋能科学发现” 的核心在于构建观测(Observe)、模拟(Orient)、猜想(Hypothesis)与实验(Verify)这 4 个环节,并将数据驱动和智能算法驱动融入其中,形成 “OOHV 全环的 AI 赋能”。

孙凝晖谈道:“在这 4 个环节中,信息技术始终能发挥作用,它让知识的获取、分享、检索、交换变得更为便捷,信息抽取也更加简单。” 他进一步阐述,推演模拟环节本质上是 “高性能计算 + AI”,而机器学习、大模型能够通过处理科学数据来发现规律、验证猜想,此外,未来的观察和实验还可借助具身智能来实现。

从具体案例分析,孙凝晖认为信息学科的主要任务就是提供工具。他形象地比喻:信息技术赋能科学的手段,就像是从最初的 “增强肌肉(算力)”,到后来的 “提供营养”(数据),如今正朝着 “赋予大脑”(AI)的方向不断进化。

“‘AI 赋能科学发现’更大的作用在于突破人类认知极限,这也是科学研究的最高追求。” 孙凝晖说道。他举例说明,在第三范式和第四范式下,人类开展了诸多突破认知极限的工作,比如通过科学计算,我们既能够进行公里级精度的中短期天气预报,也能开展全球尺度的气候变化预测;通过数据解析,人类得以从基因组层面深入认识自身,借助天文望远镜感知黑洞的 “动态”。如今,在 “第五范式” 下,同样也存在突破人类认知极限的工作。

不过,孙凝晖也特别提醒,AI 工具并非万能,科学发现依旧离不开高性能计算这一基础手段。同时,在解决实际科学问题时,如何使 “AI 赋能科学发现” 共性工具的科学语义达成一致,将成为一个至关重要的问题。

崭新的方法论和学术生态正在形成

孙凝晖深入剖析了 “AI 赋能科学发现” 所面临的数据、模型和计算问题。他指出:“科学数据大致来源于 4 个方面,即理论数据、观测数据、实验数据和知识数据。‘AI 赋能科学发现’数据集不仅需要长时间的积累,还需要关注数据的 AI-Ready 化与成熟度。”

在模型方面,孙凝晖提到,OpenAI 将实现通用人工智能的路径划分为 5 个阶段:对话者、推理者、代理者、创新者、组织者。这 5 个阶段对应的 AI 依次融入了数据驱动、知识嵌入、物理约束、人机协同、群体智能的能力。目前,“AI 赋能科学发现” 的能级正处于 “数据驱动 + 知识嵌入 + 物理约束” 的三轮驱动阶段。

在孙凝晖展示的能级图中,AI 的进阶过程宛如从 “单车” 到 “高铁” 那般循序渐进。仅依靠数据驱动的 AI 就如同 “单轮车”,随着知识的嵌入,AI 进化成了 “自行车”;加入物理约束后,AI 好似 “三轮摩托车”;而随着人机协同、群体智能等更多 “驱动因素” 的加入,AI 有望变身为 “跑车”“高铁”,极大地加速人类科学发现的进程。

在计算问题上,孙凝晖指出,衡量计算有两个关键维度,即精度和架构。“AI 赋能科学发现” 不仅需要高精度计算,还需要能够降低负载的融合架构。他表示,未来智算的融合架构究竟会呈现何种模样,成为计算机科学家亟待思考的问题。

孙凝晖满怀期待地展望未来:随着算力集群的不断堆叠、数据来源的日益多样化、模型参数规模等的进一步扩大,未来算力将进化为 Z 级(每秒可进行 10²¹ 次浮点运算)智能超算;在数据方面,将发展为由海量常识数据、高质量理论数据、实验数据及增强数据共同构成,以解决更为复杂的问题;模型方面,将诞生一个参数量超过千亿的通用科学智能大模型。

孙凝晖认为,随着 AI 技术对科学研究范式的重塑,新的研究工具链不断涌现,顶级期刊纷纷开设相关专栏,全球顶尖机构也相继成立相关或专门的研究单元,一种崭新的 “AI 赋能科学发现” 方法论和学术生态正在逐步形成。

为您推荐