AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平

剧子冉 • 2025年10月16日 14:00 • 游戏攻略 • 阅读 84

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBench，专门测试大语言模型在科学定律发现方面的真实能力。测试结果显示，即使是目前性能最强的AI系统，在复杂的科学探索任务中仍表现出显著局限性，这为理解人工智能在科学发现中的角色提供了重要洞察。该研究不仅回答了AI领域学者何恺明提出的经典问题——"现代大模型能否在牛顿时代独立发现物理定律" ，更揭示了当前AI系统在科学推理方面的根本性挑战。

传统的AI科学能力评估面临两个核心问题：数据泄漏和环境局限。由于现有物理定律广泛存在于大模型的训练数据中，直接测试这些已知定律的发现能力无法真正反映模型的原创推理水平。同时，现有评估方法通常依赖静态数据表格进行等式归纳，这与真实科研中通过设计实验、获取数据、迭代假设的动态过程存在根本差异。

NewtonBench通过创新的"形而上学变换"方法巧妙解决了这些问题。研究团队以真实物理定律为基础，通过系统性的等式变换操作生成全新的衍生定律，确保这些变换后的定律不存在于任何训练语料中。这种方法覆盖了力学、电磁学、热力学等12个物理领域的324个发现任务，并根据变换复杂度将任务划分为简单、中等、困难三个级别。

更重要的是，NewtonBench为每个物理定律提供了沙盒化的实验环境。AI系统可以通过函数调用机制自主设定实验参数，执行不同复杂度的实验任务，并从环境中获取动态反馈数据。在简单实验环境中，输入输出参数直接对应目标定律的表达形式，接近理想的符号回归场景。而在复杂环境中，目标定律仅隐含于部分实验数据中，要求AI系统具备更强的抽象思维和推理能力。

顶级AI系统的表现差异

研究团队对11个前沿大语言模型进行了系统评测，包括GPT-5、Gemini-2.5-Pro 、DeepSeek-R1和Qwen-3-235B等业界领先系统。评估结果揭示了AI能力谱系中的显著分化现象。

非推理模型在科学定律发现任务中表现普遍不佳。即使在最简单的实验设定下，这些模型的符号准确率也仅处于20%-50%的区间，远未达到实用水平。这表明缺乏专门推理优化的AI系统难以胜任需要深度逻辑推演的科学发现任务。

相比之下，专门优化的推理模型展现出质的飞跃。GPT-5和DeepSeek-R1等系统凭借强大的复杂推理与数学运算能力，在简单场景下的符号准确率普遍突破80% ，证明了推理能力对于科学定律发现的关键作用。

然而，随着任务复杂度的提升，推理模型间的性能差距迅速扩大。在最具挑战性的"困难定律+复杂实验"场景下，性能最优的GPT-5和Gemini-2.5-Pro的定律发现准确率分别仅为29.9%和13.9%，而其他模型的准确率均低于5%。这一结果充分说明，即使是当前最先进的AI系统，在面对需要深度科学洞察的复杂任务时仍存在显著局限。

研究还发现了一个意外但重要的现象：代码执行工具的辅助效果呈现显著的分化特征。对于基础能力较弱的模型，代码工具能够带来显著的性能提升，帮助它们突破计算瓶颈。然而，对于已经具备强大推理能力的高性能模型，代码辅助反而产生了负面效应。

工具依赖的认知陷阱

为了深入理解这一看似矛盾的现象，研究团队进行了详细的归因分析。通过控制代码调用权限数量的对比实验，研究者发现当高性能模型获得代码工具权限时，准确率出现了显著下滑。

进一步的文本分析揭示了问题的根源。研究团队统计了模型决策过程中探索和利用相关关键词的出现频率，发现性能下滑的模型在使用代码后，探索类词汇的出现频率急剧下降。这表明代码工具的引入导致了推理范式的根本性转变——从开放性探索转向对工具的过度依赖。

具体分析显示，在较弱的GPT-4.1模型中，45.4%的代码调用集中于数值计算环节，有效弥补了其计算能力的不足。而在强大的GPT-5-Mini中，69.4%的代码资源被投入函数拟合过程，导致模型倾向于快速获取局部最优解，而非进行全面的探索以寻找全局最优的物理定律。

这一发现具有深远的理论和实践意义。它表明当前AI系统在工具使用方面缺乏适应性策略，无法根据自身能力水平和任务需求动态调整工具依赖程度。对于科学发现这样需要创造性思维和全局优化的任务，过度的工具依赖可能成为认知发展的障碍。

NewtonBench的评测结果系统性地揭示了当前大模型科学发现能力的核心瓶颈。虽然前沿推理模型能够在预设场景中推演已知定律的变体，但其泛化能力在面对复杂物理定律和实验环境时呈现系统性衰减。这种局限不仅体现在绝对性能水平上，更重要的是暴露了AI系统在科学思维模式上的根本缺陷。

真正的科学发现需要结合直觉洞察、假设生成、实验设计和理论验证等多个认知层面。当前AI系统虽然在数学计算和模式识别方面表现出色，但在需要跨领域知识整合和创造性假设生成的任务中仍显不足。特别是在面对不确定性和开放性问题时，AI系统往往倾向于寻找快速但局部的解决方案，而非进行深入的全局探索。

这些发现为未来AI系统的发展指明了重要方向。研究者指出，下一代具备科学发现能力的AI系统需要构建能够动态平衡探索与利用的认知架构。这不仅要求在算法层面进行创新，更需要在系统设计理念上实现根本转变，从优化局部性能转向培养全局洞察能力。

同时，评估体系也需要进一步扩展，从当前的定律发现测试延伸到真实科研流程的全面模拟，包括未知定律发现、动态实验设计和可证伪性验证等环节。只有通过这样的综合性评估，才能真正培育出具备本征科学智能的人工智能系统。

NewtonBench作为首个专门评估AI科学发现能力的综合性基准，为理解人工智能在科学研究中的角色和局限提供了重要工具。随着该基准的开源发布，预计将推动更多研究者投入到AI科学发现能力的研究中，最终促进人工智能在科学领域的深度应用。

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://wap.stddy.com/youxi/202510-52424.html

84 4

本文作者

剧子冉签约作者

486 文章

6380923 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平》主要讲述了:当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

综合

俄罗斯疫情病例多少（俄罗斯疫情一共死了多少人）

俄罗斯停飞各国往来航班俄罗斯停飞各国往来航班，这一举措牵涉到政治、经济、安全和公共卫生等多个领域的复杂问题。从政治视角分析，俄罗斯可能基于国家安全和外交政策考虑，暂停与特定国家的航班往来。这种做法可能是对国际关系紧张局势的反应，或是为了推动特定政治目标而施

傲蓝
2025年04月20日
577
常识科普

成都限号（成都限号几点到几点结束）

成都市限号规则1、成都2025年实施工作日尾号限行，周末不限行（星期星期天因法定节假日调休变更为工作日的，当日不实施“尾号限行”）。限行时间为工作日7：30至20：00，限行范围是成都市绕城高速公路（G4202）（不含）以内所有道路，限行车辆为所有“川A”“川G”及外地籍小型、微型载客汽车。2、成

香天
2025年06月15日
179
游戏攻略

中俄已牵头，15国召开大会，伊朗同意封锁海峡，特朗普将视为宣战

在阅读此文之前，辛苦您点击一下“关注”既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持!编辑|X.L.Y前言安理会就中东局势召开紧急会议，这释放什么信号？伊朗同意封锁海峡，美国的反应为什么会如此强烈？在美国炸了伊朗核设施后，可以很明显的感觉到，国际社会对中东局势的关注程度有了进一步提

友菱
2025年06月25日
139
游戏攻略

今年以来最强高温过程进入鼎盛阶段这天起高温范围缩减

今年以来最强高温过程正在影响我国，今明天（7月4日至5日）将迎来本轮高温过程的鼎盛阶段，高温范围达本轮过程最大，多地或将遭遇同期罕见的高温。6日起高温范围将逐渐缩小，但中东部闷热还将持续。而在高温区边缘的四川盆地、西北地区东部、华北、东北等地是我国降雨频繁的地带，今天四川盆地局地有大暴雨，明天东北降

耀火
2025年07月04日
147
生活经验

成都限号2021最新限号时间.成都限号2021最新限号时间是多少？

成都限号到几点最新〖壹〗、该政策主要针对川A、川G及外地籍小型、微型载客汽车（蓝牌小客车），限行时间为工作日7：30至20：00，限行范围是成都市绕城高速公路（G4202）（不含）以内所有道路。限行规则为将限行车辆按车牌最后一位阿拉伯数字分为五组，每个工作日禁止一组车辆在限行时间和区域内通行。〖贰

雪云
2025年07月06日
149
综合

实测教程“微乐陕西麻将控牌器（专用辅牌神器免安装）

这软件超好用!决胜麻将插件购买(助赢神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”决胜麻将插件购买是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下载使

乐凝
2025年09月04日
100
生活经验

终于发现了“微乐开挂会被检测吗（专用辅牌神器免安装）

这神器绝了呀!微乐陕西三代必赢神器(控牌神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西三代必赢神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

映萱
2025年09月08日
103
知识分享

我来教大家“微乐浙江麻将助赢神器购买（助赢神器通用版）

软件神器登场!白金岛长沙麻将有猫腻吗(神器购买好牌规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛长沙麻将有猫腻吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

夏予心
2025年10月09日
89
知识分享

流浪狗妈妈守护新生，善良路人抱走喂养，黄昏守门寻母心碎

街头那个角落，有位狗妈妈正守护着她刚出生的小宝贝。风餐露宿的日子里，她用自己的身体为孩子遮风挡雨，那份母爱的力量让人动容。命运的转机来了。一位心地善良的朋友路过，看见了这个弱小的生命，毫不犹豫地将它抱回了家。温暖的灯光下，小家伙第一次尝到了家的味道——香喷喷的狗粮、软绵绵的小床，还有主人温柔的抚摸。

幼琴
2025年11月28日
48
百科栏目

32国联盟已经增兵，军舰2路进逼中国，中方74岁老将出马，以1对多

在阅读此文之前，辛苦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！编辑：[熊猫]以美国为首的32国联盟动作频频，重兵集结下的对华施压态势已然成型。这支由北约成员国主导、裹挟部分亚太盟友的军事联盟，这段时间以来持续增兵亚太。兵分两路展开进逼中国，双线联动的威慑意

华发囚徒
2026年01月14日
30

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

回复

AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们