新晋图灵奖得主萨顿:未来两年为何无法实现超级智能​

在人工智能技术飞速发展的当下,超级智能的实现似乎成为了科技领域最令人期待的目标。然而,在 2025 智源研究院大会上,新晋图灵奖得主理查德・萨顿却泼下一盆冷水,直言受强化学习算法的缺陷影响,超级智能的到来或需要 5 – 15 年,同时强调大模型需转向与世界互动 。这一观点无疑为陷入狂热追逐超级智能的行业注入了一剂冷静剂,值得我们深入探讨其中缘由。​

强化学习作为人工智能领域的重要算法,旨在让智能体在环境中通过不断尝试和接收反馈来学习最优行为策略。它在游戏、机器人控制等领域已经取得了显著成果,例如 AlphaGo 击败人类围棋冠军,便是强化学习的辉煌战绩。但在迈向超级智能的道路上,强化学习算法暴露出诸多难以跨越的缺陷。​

首先,强化学习算法的训练需要大量的数据和计算资源。为了让智能体能够学习到复杂的行为模式,它需要在各种场景下进行无数次的尝试和试错。以训练一个能够在复杂城市环境中自动驾驶的智能体为例,它需要模拟海量的交通场景,包括不同的天气、路况、行人行为等,这不仅需要庞大的数据集,还需要强大的计算设备来支撑长时间的训练过程。而目前,即使是全球最顶尖的科研机构和科技公司,在数据和计算资源上也存在一定的局限性,无法满足实现超级智能所需的强化学习训练要求。​

其次,强化学习算法存在样本效率低的问题。智能体在学习过程中,往往需要经历大量的无效尝试才能获得有效的学习信息。这意味着它需要花费大量的时间和资源去探索环境,而在实际应用中,这样的学习效率显然是难以接受的。比如在医疗诊断领域,我们不可能让智能体在大量患者身上进行无意义的错误诊断尝试来学习,这不仅会延误患者病情,还会造成严重的伦理问题。这种样本效率低的缺陷,使得强化学习算法难以在复杂的现实世界场景中快速进化,从而阻碍了超级智能的实现进程。​

再者,强化学习算法面临着环境适应性差的挑战。现实世界是极其复杂和动态变化的,而强化学习算法在训练过程中所依赖的环境模型往往是理想化和简化的。当智能体从训练环境转移到真实环境时,可能会因为环境的细微差异而导致性能大幅下降。例如,在实验室中训练好的机器人,进入实际的工业生产环境后,可能会因为光线、温度、物体摆放位置等因素的变化而无法正常执行任务。这种环境适应性的不足,使得基于强化学习的人工智能难以具备超级智能所需要的广泛适应性和灵活性。​

除了强化学习算法的缺陷外,超级智能的实现还面临着其他方面的挑战。超级智能不仅仅是算法的升级,它需要人工智能在认知、推理、情感理解等多个层面实现质的飞跃。目前的大模型虽然在语言处理、图像识别等方面表现出色,但它们更多的是基于数据模式的匹配和预测,缺乏真正的理解和推理能力。以自然语言处理为例,大模型可以生成通顺的文本,但对于文本背后的深层含义、语境以及情感的理解还非常有限。​

萨顿提出的大模型需转向与世界互动,为我们指明了一条可能的发展道路。传统的大模型大多是在静态的数据上进行训练,缺乏与真实世界的实时交互。而超级智能需要像人类一样,在与世界的互动中不断学习和成长。通过与环境的实时交互,智能体可以获取更丰富、更真实的信息,从而更好地理解世界的运行规律,提高自身的智能水平。例如,让智能机器人在实际的生活场景中执行任务,在这个过程中不断接收反馈、调整策略,逐步提升其智能和适应性。​

未来两年,尽管我们在人工智能领域不断取得进步,但要克服强化学习算法的缺陷,实现人工智能在多个层面的突破,达到超级智能的水平,难度依然巨大。不过,萨顿的观点也让我们更加清晰地认识到当前的技术瓶颈和发展方向,促使科研人员和企业在追求超级智能的道路上更加脚踏实地,从算法优化、数据获取、模型交互等多个方面进行深入探索和创新。或许在 5 – 15 年的时间里,随着技术的不断积累和突破,超级智能终将从梦想照进现实,为人类社会带来前所未有的变革。​

为您推荐