华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。编程界的AlphaZero时刻,终于来了?当年,AlphaZero抛弃人类棋谱,仅凭「左右互搏...

当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了 ,真正的硅基编程奇迹刚刚开始。

编程界的AlphaZero时刻,终于来了?

当年,AlphaZero抛弃人类棋谱 ,仅凭「左右互搏」便参透了超越千年的棋道 。

而今天,AI程序员的致命伤,恰恰就在于它们太像「人」了——

靠学习人类代码长大的AI ,注定无法突破人类的平庸。

就在最近,来自Meta 、UIUC和CMU的研究团队,凭借最新成果Self-play SWE-RL(SSR) ,正在试图复刻AlphaZero的神话——

抛弃人类教师 ,拒绝模仿。

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

论文地址:https://arxiv.org/pdf/2512.18552

只要给AI一个代码库 ,让它分饰「破坏者」与「修复者」进行死斗 。

在这场无需人类插手的自我博弈中,一种真正的、超越人类经验的编程奇迹,正在诞生。

华人一作	,Meta等复刻AlphaZero神话,AI甩开人类自修成神

被「喂养」的AI与人类数据的天花板

从Devin到OpenDevin,再到各大厂内部的代码助手 ,它们确实能帮程序员干不少脏活累活。

但这里有一个隐形的瓶颈 。

目前主流的训练方法,无论是SWE-RL还是DeepSWE,本质上都是在教AI「模仿」。

这种依赖人类知识的模式有三个致命伤:

  • 数据不够用:高质量的、带测试用例 、带详细描述的Bug修复数据 ,其实非常稀缺。
  • 质量不可靠:人类写的issue经常含糊不清,测试用例也不一定完美,这导致训练信号充满了噪声 。
  • 天花板太低:如果AI只是模仿人类 ,它顶多变成一个平庸的初级程序员 。

这也是为什么论文把它称作通向超级智能的一道根本性障碍:

一旦训练信号必须由人类提供 ,你就很难想象它能无限扩展到「开放式、自我进化」的层级。

核心玩法,代码沙盒里的「搏击俱乐部」

SSR的核心理念非常简单,却又极其精妙:自博弈(Self-Play)。

华人一作	,Meta等复刻AlphaZero神话,AI甩开人类自修成神

在这个系统中,同一个LLM被赋予了两个截然不同、相互对抗的角色 。

角色一:破坏者(Bug注入智能体)

它的任务不是写代码 ,而是搞破坏。

给它一个正常的开源项目(比如一个Python库),它需要潜入进去,研究代码逻辑 ,然后制造一个Bug。

但这个破坏者不能随便乱来(比如删掉所有文件),它需要生成一套完整的「作案工具包」(Artifacts):

bug_inject.diff :这是真正的破坏补丁,把代码改坏 。

test_script.sh :一个能运行测试的脚本 ,证明Bug确实存在。

test_files.txt :指定哪些测试文件是用来验证这个Bug的。

test_parser.py :一个解析器,用来把测试结果翻译成机器能读懂的JSON格式 。

test_weaken.diff :它会修改或删除现有的测试用例,让Bug在当前的测试套件下不报错。

华人一作	,Meta等复刻AlphaZero神话,AI甩开人类自修成神

在SSR中,缺陷生成是一项由破坏者智能体执行的任务,该智能体利用工具与执行环境交互以生成缺陷工件 ,并进一步验证其一致性后提供给修复者智能体。

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

一个优秀的破坏者智能体的关键特性在于其能够生成多样化的缺陷 ,以捕捉真实软件开发中的复杂性,从而在广泛的软件调试与工程场景中训练修复者智能体 。

华人一作,Meta等复刻AlphaZero神话	,AI甩开人类自修成神

角色二:修复者(Bug解决智能体)

当破坏者完成工作后,轮到修复者登场了。

修复者面对的是一个被注入了Bug,且测试被「弱化」了的代码库。

修复者拿到的任务非常具有挑战性 ,它看不到那个原始的Bug是怎么注入的,它必须像一个侦探一样,通过阅读代码 、运行测试、分析报错 ,最终写出一个修复补丁(Fix Patch) 。

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

通过破坏者和修复者两种模型角色的对抗,可以让模型实现闭环进化 。

让魔法打败魔法 ,如何保证AI不「瞎编」?

如果你让AI随便生成Bug,它大概率会产生幻觉,为此SSR设计了一套如同安检般严格的一致性验证(Consistency Verification)流程。

一个合格的Bug工件 ,必须通过以下所有关卡:

  • 存在性检查:引用的测试文件,原仓库要有;
  • 解析器检查:Python解析器要能读懂测试输出;
  • 脚本有效性:在没改坏代码之前,测试脚本要跑得通;
  • Bug范围控制:改动的文件数量要适当 ,符合设定的难度。
  • Bug有效性(关键):注入Bug后,原本通过的测试必须变失败 。如果注入了Bug测试还通过,说明Bug根本没生效。
  • 掩盖有效性:应用了「掩盖补丁」后 ,原本失败的测试必须变通过,证明成功欺骗了测试套件。

最精彩的一招,逆向变异测试

逆向变异测试(Inverse Mutation Testing) ,是一个为了验证Bug质量而发明的新概念 。

传统的变异测试是改乱代码看测试能不能发现。

而逆向变异测试刚好反过来 ,把Bug涉及的文件逐个恢复成原样。

  • 如果恢复某个文件后,失败的测试变通过了,说明这个文件确实是Bug的起因 。
  • 如果恢复了文件测试还是有问题 ,说明这个文件跟Bug没关系。

这一步确保了AI生成的每一个改动都是必要的。

如何制造一个「完美」的Bug?

如果「破坏者」只是简单地把x=1改成x=0,那「修复者」学不到任何东西 。

为了让AI变得更聪明,研究团队探索了几种极具创意的Bug注入策略。

策略A:直接注入(Direct Injection)

告诉AI:「去 ,搞个Bug出来」,这是最笨的方法。

结果不出所料,AI经常就在代码里随便改个数字或符号 。

这种Bug太肤浅 ,修复者一眼就能看穿,训练效果最差 。

策略B:暴力删除(Removal-only)

告诉AI:「把这块核心功能的代码删了!」

这逼迫修复者必须根据上下文和剩余的测试代码,重新实现这部分功能。

如此一来 ,能极大地锻炼AI的代码重构和理解能力。

策略C:历史回滚(History Rollback)

告诉AI:「去翻翻以前的提交记录,把代码回滚到某个旧版本 。」

因为代码库的历史往往充满了真实的Bug和功能的演进。

让AI面对过去的代码状态,相当于让它重新经历一次项目演化的过程。这种生成的Bug最自然 ,最具实战意义 。

实验证明 ,「删除策略」和「历史回滚」混合使用,效果最好。这既保证了难度,又保证了真实性。

终极杀招:高阶Bug

如果修复者尝试修复Bug但失败了 ,SSR认为这也可以「废物再回收利用」 。

修复者失败的代码,往往是一个半成品——它可能修好了一部分,但引入了新问题。这不就是一个更复杂、更隐蔽的Bug吗?

系统会将这个「失败的修复」作为新的Bug状态 ,再次扔给修复者。

这种多轮次 、分层级的故障模式,极大地丰富了训练数据的维度 。

残酷的奖励机制与对抗博弈

在强化学习中,奖励函数是指挥棒。

SSR的奖励设计充满了一种「微妙的平衡感」。

华人一作	,Meta等复刻AlphaZero神话,AI甩开人类自修成神

对于修复者,奖励很简单:全对得+1分 ,否则-1分 。成王败寇 。

但对于破坏者,这就很有趣了。

  • 如果破坏者生成的Bug太简单,修复者每次都能修好(解决率s=1) ,破坏者得不到高分。
  • 如果Bug太难 ,根本修不好(解决率s=0),破坏者会被惩罚(因为它可能生成了逻辑矛盾的死局) 。

SSR采用了一个基于解决率s的公式:

其中,s∈[0,1]是解决率(solver成功修复bug的比例) ,α∈(0,1)是一个超参数,用于控制对退化解决率的惩罚强度,在实验中设置为0.8。

它的意思是:最好的Bug ,是那些让修复者感到棘手 、通过率不高不低、处于「能力边界」上的Bug。

这迫使破坏者不断提升难度,正好卡在修复者「跳一跳够得着」的地方,从而推动双方共同进化 。

战果揭晓 ,AI真的变强了吗?

研究团队使用了Code World Model(CWM)的32B模型作为底座,在512个H100 GPU上进行了训练。

他们在两个权威榜单上进行了测试:

  • SWE-bench Verified:经过人工验证的真实GitHub issue集合。
  • SWE-Bench Pro:更复杂、更企业级的问题集合 。

竞争对手是基于同样模型架构 、同样环境镜像,但使用「人类数据」(Human Data)训练出来的基准模型。

所谓人类数据基准 ,就是用传统的「Issue描述+测试用例」方式训练的。

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

结果令人振奋:

  • SSR完胜:在整个训练轨迹中 ,SSR的表现始终高于「人类数据」基准 。
  • 分数提升:在SWE-bench Verified上提升了10.4% ,在SWE-Bench Pro上提升了7.8%。
  • 零样本泛化:SSR在训练时从未见过任何自然语言描述的Issue,它只看过代码和测试。但在测试时,它却能完美处理带有Issue描述的任务 。这说明它学到的不是「做题技巧」 ,而是真正的「编程内功」 。

测试结果显示,随着训练步数的增加,SSR的能力稳步上升 ,而没有出现过拟合或崩溃,证明了自博弈产生的「课程」是持续有效的。

通向超级智能的最后一块拼图

SSR的出现,意味着我们终于找到了一条摆脱「数据饥渴」的路径。

以前我们认为 ,要想AI写好代码,必须有无数的人类程序员贡献代码和修Bug的记录 。

现在SSR告诉我们:只要有代码库(Raw Code)就够了。

当然,SSR还只是第一步。

它目前的验证还主要依赖单元测试 ,还没法处理那种跨越数月的大型重构任务 。

但它指明了方向:

超智能软件系统的诞生,可能不需要人类作为老师,只需要人类的代码作为战场。

作者简介

Yuxiang Wei

华人一作	,Meta等复刻AlphaZero神话,AI甩开人类自修成神

Yuxiang Wei

Yuxiang Wei是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的博士生,由Lingming Zhang教授指导。

他同时在Meta FAIR担任兼职研究员,与Sida Wang、Daniel Fried等人合作 ,致力于推进大型语言模型(LLM)在代码智能方面的应用 。

Zhiqing Sun

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

Zhiqing Sun

Zhiqing Sun是Meta超级智能实验室(MSL)TBD Lab的AI研究科学家 ,专注于训练大型语言模型(LLM)用于深度研究、代理开发和复杂任务。

此前,他在OpenAI的后训练团队担任研究科学家,并曾在AllenNLP和MIT-IBM Watson AI Lab实习。

Zhiqing Sun于2025年2月在卡内基梅隆大学语言技术研究所获得计算机科学博士学位 ,并在北京大学获得计算机科学专业荣誉学士学位 。

David Zhang

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

David Zhang

David Zhang是Meta基础AI研究(FAIR)巴黎实验室的研究科学家 ,专攻使用LLM的代码生成机器学习和深度学习技术。

David Zhang拥有阿姆斯特丹大学机器学习博士学位 、慕尼黑工业大学计算机科学硕士和学士学位。

Lingming Zhang

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

Lingming Zhang

Lingming Zhang是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的副教授 ,隶属于Grainger工程学院 。

他的研究融合软件工程、编程语言、形式方法和机器学习 ,重点关注基于LLM的软件测试 、分析、修复和合成 。

Sida Wang

华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神

Sida Wang

Sida Wang是Meta基础AI研究(FAIR)西雅图实验室的研究科学家 ,专注于自然语言处理、机器学习和代码大型语言模型(LLM)。

此前,他在普林斯顿大学和高等研究院(IAS)担任研究讲师,并于2017年在斯坦福大学获得计算机科学博士学位(由Chris Manning和Percy Liang联合指导)。

他持有多伦多大学应用科学学士学位 ,曾在Geoffrey Hinton指导下研究胶囊网络 。

参考资料:

https://x.com/YuxiangWei9/status/2003541373853524347%20

https://arxiv.org/abs/2512.18552

本文来自微信公众号“新智元”,作者:元宇 好困,36氪经授权发布。

本文来自作者[惜凡]投稿,不代表视听号立场,如若转载,请注明出处:https://wap.stddy.com/youxi/202512-69273.html

(19)

文章推荐

  • 伊朗钻地弹贯穿大楼,摧毁以军地下指挥所!特拉维夫真实伤亡惊人

    美国驻伊朗大使馆(虚拟)28日发出警告,要求在伊朗境内的美国人尽快离境。这意味着,在美国看来美伊或以伊对抗冲突随时有再次爆发的可能。现在三方的主要矛盾焦点在于,美以要求德黑兰交出大约408公斤浓缩铀(丰度60%)。美方上述警告无疑是在向伊朗极限施压。在此前的对伊朗核设施的打击行动中,美空军B-2战略

    2025年06月29日
    137
  • 成都限行大运会.成都大运会交通管制?

    成都大运会车辆限行通知最新2023〖壹〗、年成都大运会车辆限行通知如下:总体管制时间与范围为保障第31届世界大学生夏季运动会开幕式活动安全、顺利进行,成都市公安局将对部分道路分时、分段采取交通管制措施。〖贰〗、时间:2023年7月22日至8月10日。规定:机动车需遵守大运会专用车道的通行规定。外

    2025年07月05日
    132
  • 《以法之名》原来!这才是江旭东讨厌洪亮的原因,郑雅萍说的太对

    有些人,表面上看着是真的为了你好,就比如这个老丈人江旭东。他对自己那个当检察官的女婿洪亮,那叫一个“上心”,постоянно催他赶紧把工作辞了,去北京发展。江旭东甚至都说好了,到了北京,学区房都给他们准备好,就为了让女儿一家团聚,听着多感人。可这事仔细一想,就觉得不对劲。他那么着急把女婿从检察院

    2025年07月08日
    121
  • 我来教大家“微乐家乡麻将如何提高胜率(专用辅牌神器免安装)

    超酷软件神器!浙江游戏大厅辅助器开挂(怎么调胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”浙江游戏大厅辅助器开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月27日
    79
  • 胜率设置方法“开心泉州麻将专用神器(专用辅牌神器免安装)

    软件神器称王!三三麻将助赢神器(软件出售)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”三三麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使

    2025年10月02日
    78
  • 过了 50 岁,跑步虽好,请牢记这 “五不要”

    膝盖一弯就咔啦响,跑两步心跳飙到嗓子眼,这不是你老了,是方法全错。2024年6月,北京朝阳公园,57岁的老周戴着新买的光电心率带,刚跑800米,手表尖叫报警,直接把他送进安贞医院急诊。医生一句“再晚十分钟,可能就心梗了”把围观跑友全吓停。老周出事那天,我正好在隔壁跑道。看他脸色煞白,我还

    2025年10月02日
    85
  • 玩家必备教程“哈灵麻将助赢神器(助赢神器通用版)

    软件神器妙绝!微信小程序麻将怎么增加胜率(软挂神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序麻将怎么增加胜率是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年10月10日
    73
  • 北京2026年城乡居民医保缴费标准出炉!缴费多少?补贴涨了吗?

    北京的朋友们注意了!2026年城乡居民医保缴费标准正式公布,事关每个人的“看病钱”,赶紧来看看今年有啥变化,别错过缴费时间哦~缴费标准分三档,个人缴费略有调整根据最新通知,2026年北京城乡居民医保缴费继续按人群分档,个人缴费标准相比去年有小幅调整:-成年居民:每人每年670元(去年650

    2025年12月03日
    45
  • 胜率设置方法“微乐浙江麻将助赢神器购买(专用辅牌神器免安装)

    软件神器妙绝!中至乐平麻将小程序插件(软挂神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至乐平麻将小程序插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年10月10日
    76
  • 断崖式专利差!6G技术美国占了35.2%,日本9.9%,中国是多少?

    前言不得不感叹现如今科技的发展,网速飞快的5G还没有普及,现在6G已经在多个国家开辟发展道路了。但这更像是无奈之举,因为根据预测,到2030年,全球移动数据量将会冲破5000EB,到这个时候5G宽带将是拥挤的单车道,终究扛不住数据洪流的冲击。在这种情况下,6G将不会是选择题,而是必答题,谁能攥住其核

    2025年10月30日
    72

发表回复

本站作者后才能评论

评论列表(4条)

  • 惜凡
    惜凡 2025年12月29日

    我是视听号的签约作者“惜凡”!

  • 惜凡
    惜凡 2025年12月29日

    希望本篇文章《华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神》能对你有所帮助!

  • 惜凡
    惜凡 2025年12月29日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 惜凡
    惜凡 2025年12月29日

    本文概览:当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。编程界的AlphaZero时刻,终于来了?当年,AlphaZero抛弃人类棋谱,仅凭「左右互搏...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们