IC-World团队
量子位 | 公众号 QbitAI
如果两个AI同时生成在同一个房间里“漫步”的视频,它们生成的是同一个房间吗?
如果两个AI生成站在同一条街上的视频,街上的车辆和行人会依次走进它们的视野里吗?
答案是:以前不行,现在行了。

Lin Guosheng (林国省)与Ye Deheng(叶德珩)的研究团队提出IC-World,首次系统性地解决了一个长期被忽视、却极其关键的问题:共享世界生成——给AI同一个世界在不同视角下的图片,让AI分别生成对应视角的视频,并且它们真的描绘了“同一个世界”。
IC-World是一个基于强化学习,激发视频生成模型强大上下文能力的共享世界生成新范式,能够同时生成同一个时间的同一个世界在不同视角下的视频,首次做到共享世界一致性,在多项一致性评估指标上超过现有方法,生成视频视觉质量高,且生成速度远超传统生成方案。
值得注意的是,在该团队完成IC-World工作之后,Saining Xie团队也在后续发布了采用相似核心思想的研究工作Solaris,这一时间上的接近并非巧合,而是从侧面印证了一个事实:视频生成世界模型正在从“独立世界生成”,走向“共享世界生成”的必然阶段。
IC-World的提出,正是对这一趋势的系统化探索与完整验证。
从“独立”到“共享”
为什么“共享世界”这么重要?想象几个重要的应用场景:
1. 多机器人协作:两个机械臂在同一空间里搬运物体,一个“看到”苹果在桌子左边,另一个却“看到”在右边?直接灾难。
2. 多人第一人称游戏:两个玩家同时进入一张地图,门口的招牌、桌子上的广告牌、NPC的动作,在不同玩家视角下必须完全一致。

视频生成世界模型(Video-based World Model)如果连“同一个世界”都无法稳定建模,那所谓的推理、规划、决策,都是空谈。但现实是:现有的视频生成世界模型,几乎全都失败了,并且在有不同输入时无法同步生成。
现有视频模型的问题在哪里?当前主流的视频模型(image-to-video / text-to-video)有一个致命假设:一次只生成一个视角下的视频。
当你试图输入同一世界的多张不同视角下的图片分别生成视频时会发现:场景结构对不上、人物位置飘移、动作不同步、前一秒出现的物体,下一秒“消失”。
这不是小bug,而是建模范式本身的问题。
双策略协同打造共享世界模型
IC-World的核心思想:让视频大模型“一次性看到整个世界”。

团队提出了一个看似简单、但极其有效的思路:In-Context Generation——把来自同一世界的多张不同视角下的图片像拼图一样拼成一个大图,配合一个明确的共享世界text prompt,让视频模型一次性生成一个“视频合集”,然后再把它切分回多个视角视频,从一开始就把生成的视频绑定在同一个世界里。
不仅如此,研究团队还要求生成的世界必须一致,这一点光靠模型自身的生成能力还不够,团队进一步引入基于GRPO的强化学习微调策略,提出几何一致性奖励模型(Geometry consistency reward model)和动态一致性奖励模型(Motion consistency reward model),来教会视频模型去生成不同视角下一致性的视频。
实验表现
为全面验证IC-World的核心价值,团队设计了一套完整的评估体系。
一致性评估:IC-World全面领先
团队提出两种互补场景:
静态场景+动态相机下的几何一致性评估,输入是同一世界的两张图片,拍摄时间一致,但相机视角不同,要求输出两个视角下、相机自由运动的视频。
动态场景+静态相机下的物体动态一致性评估,相机固定不动,场景中存在明显的动态行为(如人类操作、物体交互),输出固定视角下的动态视频。

在几何一致性指标和动态一致性指标上,IC-World均取得最优结果,同时,视频整体质量(CLIP、VLM、M-FID)并未下降,超越各大主流、SOTA视频生成算法。
除此之外,In-Context Generation的并行生成带来十分显著的效率提升,大大缩短生成时间。

VBench指标:视频质量高
在权威基准VBench上,对于传统Image-to-Video任务IC-World取得81.15的综合评分

消融实验:每一部分不可或缺
仅使用In-Context Generation,在不加入RL训练的情况下,也能显著提升一致性,说明视频大模型本身具备“世界级建模潜力”以及团队的思路极其有效。

针对微调策略选择,GRPO强化学习在少量数据下即可达到甚至超过监督微调效果。

对两个奖励模型的消融实验说明,在加入几何一致性奖励后,场景结构明显更稳定,在加入动态一致性奖励后,动态同步性显著增强。

且对于几何一致性奖励模型以及动态一致性奖励模型来说,更大的group size能显著降低GRPO中相对优势估计的方差,使奖励信号更加可靠,从而带来更稳定、有效的优化过程。

IC-World并不是某个技巧的“堆叠”,而是一个围绕“共享世界”目标精心对齐的系统设计。
在视频生成世界模型不断走向更复杂内容创作与真实物理交互场景(如机器人世界模拟器等)的背景下,IC-World所提出的“显式建模共享世界”的新范式,正在成为这一方向关键的一环。