对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

【导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,...

【导读】浙江大学ReLER团队开源ContextGen框架 ,攻克多实例图像生成中布局与身份协同控制难题 。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离 ,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

在定制化AI图像生成领域 ,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制多主体身份保真的同步实现。

现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足 。

为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架 ,首次在Diffusion Transformer (DiT) 架构内部 ,通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统 ,实现了在复杂定制化控制方面实现了关键突破。

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业痛点,多实例生成中的「协同控制挑战」

对标GPT-4o和香蕉	,浙大开源ContextGen:布局身份协同新SOTA

当前MIG模型在实际应用中,主要表现出在布局精准度与身份保真度协同控制上的挑战:

宏观布局难以固化:即使模型显式提供了布局控制功能,生成的多个实例也难以精确地锚定到用户指定的空间位置 ,属性泄露和实例遗失现象频发,导致生成图像的构图混乱且不符合预期 。

身份细节极易丢失:目前很多模型都支持多主体定制化,但主体数量增加时 ,身份细节丢失的概率会显著上升,生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于:它利用注意力机制控制的上下文学习,实现了对这两个问题的协同解决 ,并在多个关键基准上达到了新的SOTA水平。

核心机制 ,布局锚定与身份隔离

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

ContextGen框架基于DiT架构构建,将所有输入整合成一个统一的Token序列T ,创新在于在DiT模块中嵌入了两个功能不同的「注意力核」 。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:该模块采用的注意力掩码MCLA允许查询Token q与所有文本 、图像和布局Token进行广泛通信 。

效果:通过在DiT模块的前置和后置层建立宏观约束,确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配于现有的DiT上下文学习机制 ,简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」:

机制:采用隔离式的注意力掩码MICA,强制限制位于实例n边界框Bn内的查询Token q,只能关注其自身区域Bn、文本T以及对应的参考图像Rn

效果:这一设计在DiT模块的中间层 ,切断了不同实例身份Token之间的交叉通信,它为每个实例创造了一个「注意力孤岛」,从机制上保障了多主体身份信息的高保真隔离注入 ,这一机制在应对实例重叠、压缩等复杂场景时,能有效缓解身份信息丢失问题,同时在上下文变长时 ,也能维持鲁棒的身份保真度 。

辅助优化与数据基石

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

DPO强化学习:引入直接偏好优化 (DPO),解决了监督微调可能导致的布局僵硬复制问题,从而增强了生成图像的多样性和自然度。

对标GPT-4o和香蕉	,浙大开源ContextGen:布局身份协同新SOTA

IMIG-100K数据集:团队同步发布了IMIG-100K,首个包含详细布局与身份标注的 、含有不同难度层级的、大规模高质量多实例合成数据集。

实验结果,开源SOTA ,对标闭源巨头

ContextGen的性能突破,体现在布局精度和身份保持两个维度:

布局精度提升:在COCO-MIG基准上,空间准确性(mIoU) 实现了+5.9%提升 ,验证了ContextGen在精确构图上的领先性 。

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

身份保持的突破:在LAMICBench++身份保持测试中,ContextGen的在较多主体下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中 ,对细节的保真还原能力。

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

定性结果清晰显示,ContextGen也能还原细粒度的面部特征 ,也能灵活融合不同风格的参考图像 ,同时还能遵循用户的布局设计要求 。

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA对标GPT-4o和香蕉	,浙大开源ContextGen:布局身份协同新SOTA

前端支持,用户友好界面

团队还开发了一个简单的前端界面,用户可以上传自己的参考图像 ,方便地设计布局,从而定制化生成多实例图像。

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制 ,创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案,成功突破了布局与身份的协同控制瓶颈,也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径 。

作者简介

本工作由浙江大学ReLER团队完成 ,其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究,包括但不限于生成模型、多模态学习 、AI+X等方向。

参考资料:https://arxiv.org/abs/2510.11000

本文来自微信公众号“新智元” ,编辑:LRST ,36氪经授权发布 。

本文来自作者[勤浩宇]投稿,不代表视听号立场,如若转载,请注明出处:https://wap.stddy.com/life/202512-67104.html

(36)

文章推荐

  • 中至鹰潭麻将有没有猫腻(揭秘手机上输赢技巧).中至鹰潭下载?

    鹰潭麻将鹰潭麻将有下列番数抢杠:其他玩家亮出的暗杠牌,被玩家抢杠胡。杠开:其他玩家亮出的明杠牌,玩家可以胡牌。胡宝:特殊情况下,胡宝可以作为番数计算。碰碰胡:胡牌牌型中,由四个刻子和一对将组成。小七对:由7个对子组成的胡牌牌型。十三烂:两两不能组成搭子的牌型。七星十三烂:比十三烂更高要求的牌型,需

    2025年07月18日
    134
  • 关于微乐麻将怎么让系统给自己好牌(到底能不能开挂)的信息

    微乐麻将自建房怎么拿好牌〖壹〗、在微乐麻将自建房中拿到好牌的技巧如下:创建房间时,可选取适当的规则设置,这会影响到拿牌的质量和游戏体验。进入房间后,在设置中调整局数和底分,适当的增加这些数值可能会提高拿到好牌的几率。特殊玩法设置也是关键,比如“七对子”、“十三幺”等,合理选取这些玩法可以增加

    2025年09月06日
    103
  • 拦截失败!以色列遭袭死伤惨重,内塔尼亚胡宣战,战斗或即将打响

    9月24日清晨,一场突如其来的袭击打破了以色列南部城市埃拉特的宁静,胡塞武装的无人机和导弹突破防线,精准命中人口密集区域,造成22人受伤,其中4人伤势严重。更令人警觉的是,以色列引以为傲的“铁穹”系统这次竟然没有拦截成功,面对这样的打击,总理内塔尼亚胡当场放话:以色列将对胡塞武装实施“最沉重的打击”

    2025年09月25日
    92
  • 终于发现“微乐家乡麻将挂神器(助赢神器通用版)

    超酷软件神器!微信斗牛技巧解析(助攻神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信斗牛技巧解析是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使

    2025年09月29日
    81
  • 分享辅助“微乐湖南麻将自建房怎么赢(专用辅牌神器免安装)

    软件宝藏必备!蜀山四川麻将输赢规律(提高胜率软件)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”蜀山四川麻将输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年10月02日
    84
  • 实测教程“打哈儿麻将怎么让系统发好牌(专用辅牌神器免安装)

    软件神器妙绝!小南四川长牌到底有没有挂(胜负规律拿好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小南四川长牌到底有没有挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年11月06日
    67
  • “摇一摇”广告乱象为何屡禁不止?

    文/冯致婷近日,“双十一”购物活动进入尾声,各大APP的广告投放却依旧“火力全开”。投屏广告无孔不入,“摇一摇”广告更是沦为骚扰重灾区,手机轻微晃动或指尖无意触碰屏幕,页面便会被强制跳转至“双十一”会场,关闭按钮隐蔽难寻、退出流程繁琐复杂。这种“被动触发”的广告形式严重干扰用户正常使用,引发网友广泛

    2025年11月12日
    56
  • 男子在美容院花30多万做身体护理项目,妻子:一天接受13人次服务,还有3人同时服务

    本来只是收到一张剪头发优惠的小卡片,想剪个便宜的头发,没想到事情迎来了巨大的反转。一名55岁男子在一家看似普通的美容美发店里,短短半年内花掉了30多万元。之前一位只理十元快剪的男人,怎么就忽然间成为了“半年花了三十多万护理”的主人公?这家美容店究竟有什么吸引力呢,竟能让男子花这么多钱?根据深圳新闻网

    2025年12月19日
    42
  • 注意!属猪人1月初至中旬最易犯的错,现在知晓还不晚!

    日子像温吞水,喝着舒服,却让人有点犯懒。很多属猪的朋友,都在这种“一动不动”的状态里泡着,嘴上说新的一年要有新气象,心里却难得有一点躁动。哪怕计划写满了一整页,实际还是窝在既有的安全区。这一切,不是没激情,也不是不向上。属猪人的性格最大的长处,恰恰是知足、随和。日子有保障,不必斤斤计较。可这股“踏实

    2026年01月06日
    33
  • 男人最容易失守的时刻:不是冲动,是“被需要”

    6️⃣真正让男人上头的,不是身体,是她“只找你”很多男人都会低估一件事——被依赖感,比暧昧更危险。她不一定主动撩你,但她会在深夜找你说话;不一定夸你帅,却总是说“跟你说话比较安心”。你表面很冷静,心里却在想:“她是不是只对我这样?”那一刻,你开始产生一种错觉:不是我想要她,是她离不开我。而男人,一

    2026年01月13日
    29

发表回复

本站作者后才能评论

评论列表(4条)

  • 勤浩宇
    勤浩宇 2025年12月22日

    我是视听号的签约作者“勤浩宇”!

  • 勤浩宇
    勤浩宇 2025年12月22日

    希望本篇文章《对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA》能对你有所帮助!

  • 勤浩宇
    勤浩宇 2025年12月22日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 勤浩宇
    勤浩宇 2025年12月22日

    本文概览:【导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们