滚球(中国)官网app 生成视频总出物理bug?用VLM搬动+token级对王人,让拆除在正确位置发生,碰撞罢黜动量守恒

发布日期:2026-03-23 09:50    点击次数:196

滚球(中国)官网app 生成视频总出物理bug?用VLM搬动+token级对王人,让拆除在正确位置发生,碰撞罢黜动量守恒

当东说念主们谈到"宇宙模子"(World Models)时,许多东说念主会领先猜想频年来飞快发展的生成式视频模子。

从通用生成模子 Wan 到 NVIDIA 的视频宇宙模子 Cosmos,这些模子依然能够生成视觉完了极为传神、质地极高的动态场景,看起来仿佛确凿宇宙的摄像。

在很厚情况下,这种能力依然弥散令东说念主咋舌:

模子不错生成浪潮拍岸、火焰拆除、车辆行驶、致使复杂的东说念主类行动。从视觉角度来看,它们似乎依然"学会了"宇宙的运行神气。

但是,若是仔细不雅察这些视频,就会发现一个耐东说念主寻味的时局:

它们看起来很确凿,却未必确凿"主张"物理宇宙。

举例,在一些生成视频中,会看到:

散言碎语、束缚延长的蜂蜜;

△  Wan

△  Prophy

斧头劈柴完了不同步;……

△  Wan

△  Prophy

这些顽抗知识的细节,正在清爽一个要害问题:

现存的视频生成模子,骨子上仍然停留在"外不雅拟合",而非确凿的"物理建模"。

换句话说,它们不错生成"像物理"的画面,却未必确凿主张:

物体为何通顺

力如何传递

物理时局应当在何处发生

这也引出了一个越来越受到存眷的问题:

生成式视频模子,究竟是在"模拟宇宙",如故只是在"师法宇宙"?

为打破这一瓶颈,中山大学和 MBZUAI 等机构伙同建议了 ProPhy。该责任构建了一种全新的渐进式物理对王人框架,使视频扩散模子初度具备"分层物理主张"与"空间物理对王人"能力——不仅能够判断应当呈现何种物理时局,更能够精确定位物理时局应发生在画面的何处。ProPhy 的建议,标记着视频生成模子从"视觉传神"迈向"物理一致",向确凿真义真义上的"宇宙模拟器"迈出了要害一步。

当今,该论文已被CVPR2026接近满分接受,名堂的论文和代码均已开源:

想考:为什么视频模子学不会物理?

尽管现存模子在视觉传神度上突飞大进,但在物理一致性方面却屡屡"翻车"。论文指出现存才智存在两个根人性瓶颈:

1. 枯竭显式的物理建模:现时大巨额才智依赖隐式学习,或仅使用粗粒度的全局物理类别标签进行提拔。这种神气骨子上只是让模子"师法时局",却莫得确凿酿成可诀别、可组合的物理先验。换句话说,模子简略能生成"像拆除""像碰撞"的画面,但并未确凿主张:不同物理礼貌之间的各别是什么;各样物理时局在现实宇宙中应如何演化。完了是——物理礼貌在模子里面仍然是暧昧、羼杂且不成明白的。

2. 枯竭细粒度空间对王人:确凿宇宙的物理时局不竭发生在局部区域(火焰在拆除处、水花在战役点飞溅),但模子不竭"各向同性"反映,枯竭对空间区域的各别化建模,无法精确定位物理事件发生的位置。这意味着:模子即使"知说念"有火,也未必能在正确位置拆除;即使"知说念"有碰撞,也未必服从动量守恒。

ProPhy:把"物理巨匠"植入视频模子?

不再让模子暧昧地"猜物理",而是让不同"物理巨匠"分别掌执不同物理礼貌,并通过渐进式对王人进行互助

两阶段物理巨匠机制(MoPE)

第一阶段:语义物理巨匠(SEB)

SEB 持重缔造对场景合座物理结构的宏不雅主张。在这一阶段,模子领先从文本请示中解析潜在的物理语义信息,识别场景中可能波及的物理时局类型。通过语义路由机制,不同的物理巨匠(如拆除、反射、折射、流体通顺等)被迫态激活,并交融为斡旋的视频级物理先验默示。这一阶段的中枢想法是回复一个全局问题:

"这个视频波及哪些物理礼貌?"

第二阶段:细粒度物理巨匠(Refinement Expert Block, REB)

若是说 SEB 缔造的是"物理种类"的默契框架,那么 REB 则持重"物理位置"的精确落地。在得回全局物理先验之后,模子进一步参加考究化对王人阶段。REB 在 token 级别膨胀巨匠路由,为每个空间位置动态分拨最合适的物理巨匠,使不同区域对不同物理礼貌产生各别化反映,从而达成空间各向异性的物理建模。这一阶段处理的是一个愈加要害的问题:

"物理时局具体发生在画面的何处?"

巨匠知识:向 VLM 借"物理感知能力"

论文中一个极具启发性的发现是:

在"物理时局定位"这一能力上,滚球app(中国)官网下载Vision-Language Model(如 Qwen2.5-VL)不竭比视频生成模子更精确。

换言之,生成模子擅长"画出来",但未必擅长"看明晰"。而 VLM 在跨模态主张与空间谨防力分散上,反而具备更强的物理事件定位能力。基于这一不雅察,作家作念了一件格外斗胆的尝试——将 VLM 的物理感知能力搬动到生成模子中。

具体而言:

应用 VLM 进行物理时局问答(举例"视频中拆除时局发生在何处?")

索取对应的 attention map

构建 token 级物理定位信号

将该信号对王人到生成模子的 Refinement Router

这骨子上是一种跨模子的物理能力蒸馏与搬动。

实验完了:不仅更"守物理",更"融会顺"定量评估

在泰斗物理知识评测基准VideoPhy2上,ProPhy 展现出显赫上风:

在 Wan2.1-1.3B 基座模子上

Joint 目的升迁 +19.7%

Physical Commonsense(PC)与 Semantic Adherence(SA)同步升迁

这意味着模子在"物理正确性"与"语义一致性"两个维度上同期增强,而不所以糟跶语义为代价相通物理分数。

在 CogVideoX-5B 上

多名堂的达到 SOTA 或次优水平

在合座与繁难子集(HARD)上均推崇褂讪

ProPhy 并非针对某一特定架构调优,而是具备细密的通用性与可搬动性。

在强调视频动态推崇能力的VBench评测中

Dynamic Degree 目的显赫升迁

轮廓质地评分同步提高

视觉对比

ProPhy 带来的不仅是画质的升迁,更是物理逻辑层面的透顶重构。比拟于传统才智中频发的时局触发错位、动量守恒顽抗或空间穿模,ProPhy 在动态推崇上展现出了极高的现实一致性:

行为更严谨:非论是掷铁饼时的蓦然扬尘,如故球体碰撞的动量传递,均澄澈可辨;

交互更当然:液体流向不再顽抗容器结构,足球轨迹与落点保持逻辑斡旋。

这标记着模子从追求视觉"形似"向罢黜"宇宙礼貌"的骨子超越——它生成的不再只是视频,而是一个受现实敛迹的动态宇宙。

更多的定性分析也能够标明,ProPhy 能够在多个物理限制下生成愈加稳健物理试验的视频。

更深层真义真义:通向"可控物理宇宙模子"

论文中还有一个极具启发性的实验。当商榷者东说念主为回转物理巨匠的路由权重时,模子生成的完了发生了戏剧性变化——正本刚性的汽车车门,居然像布料相似随风飘扬。这一时局并非巧合的生成作假,而是一个强有劲的字据:

不同物理巨匠模块,确乎学习到了互相诀别的物理先验。

换句话说,模子里面依然酿成了结构化、可明白的物理知识默示。当商榷团队烦闷巨匠选拔时,就是平直操控了物理礼貌自己。这不单是一次性能优化,而是一次能力领域的拓展——视频生成模子,第一次展现出向"可控物理宇宙模子"演化的后劲。改日,这种结构化物理建模神气可能带来一系列全新的能力:

可控物理属性剪辑:让刚体变柔性,让流体变黏稠,平直操控物体的物理属性。

物理礼貌搬动:将某种物理行动模式搬动到新的场景或对象上,达成跨场景物理泛化。

物理参数蜕变:援助重力强度、碰撞弹性、流体阻力等隐含参数,达成"物理可编程生成"。

可解释物理建模:通过巨匠激活模式主张模子里面"投降"的物理礼貌,升迁透明度与可分析性。

△  Inverted Experts

△  Prophy 转头与预测转头:从"看起来确凿"到"运行确凿"

ProPhy 的真义真义,并不单在于一次性能升迁或一个新模块打算。它确凿激动的是视频生成范式的转化——从依赖数据统计礼貌的视觉拟合,走向具备结构化物理建模能力的动态推演。

通过分层物理巨匠机制与细粒度空间对王人政策,ProPhy 让模子第一次同期回复两个要害问题:"波及哪些物理礼貌?"以及"这些礼貌发生在何处?"更进犯的是,它借助 VLM 的空间感知能力,将物理定位能力搬动到生成经由之中,使视频生成不再只是外不雅一致,而是逐渐具备物理一致性。这意味着,视频模子正在从"像宇宙"迈向"罢黜宇宙"。

预测:下一代可推演的宇宙模子

虽然,ProPhy 仍然只是一个运行。现时的物理建模仍基于类别与谨防力对王人,改日简略不错进一步引入一语气能源学建模、微分方程敛迹,致使将物理引擎与生成模子深度交融,使模子具备更可解释、可纵脱的物理推演能力。

当视频生成确凿主张力、能量与守恒定律,当物理礼貌成为生成经由的内在敛迹,咱们简略将迎来一种全新的 AI 步地——不仅能够生成宇宙的表象,更能够模拟宇宙的运行。其时,视频模子将不再只是创作器具,而是确凿真义真义上的"可学习宇宙模拟器"。

论文第一作家中山大学一年纪博士生王子俊和穆罕默德 · 本 · 扎耶德东说念主工智能大学(MBZUAI)胡攀文博士,商榷标的为视频生成和宇宙模子;通信作家为中山大学智能工程学院梁小丹解说和黎汉汇解说。

论文标题:

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

论文畅通:

https://arxiv.org/pdf/2512.05564

名堂主页:

https://zijunwa.github.io/prophy/

代码畅通:

https://github.com/zijunwa/ProPhy

一键三连「点赞」「转发」「小心心」

迎接在评述区留住你的想法!

—  完  —

咱们正在招聘又名眼疾手快、存眷 AI 的学术剪辑实习生  � �

感酷爱酷爱的小伙伴迎接存眷 � �  了解笃定

� � 点亮星标 � �

科技前沿进展逐日见滚球(中国)官网app

环球体育官网登录入口