您现在的位置:首页 > 资讯 > 社会 > 正文

李飞飞「空间智能」又一新作:只需一块GPU,实时生成持续、3D一致世界

时间:2025-10-17 12:22:33    来源:学术头条    

今日凌晨,由李飞飞联合创立的空间智能公司World Labs推出了他们的最新生成式世界模型——“实时帧模型”(Real-Time Frame Model,RTFM)。

该模型能够在与你交互的过程中实时生成持续的、3D 一致的视频帧,且只需一块 H100 GPU 即可运行!


(资料图片仅供参考)

这项研究探索了如何解决生成式世界模型的高计算资源需求难题,这是未来在渲染与空间智能领域中必须探索的关键研究方向。

要知道,世界模型的算力需求远超当前的大语言模型(LLM),例如维持一小时的持久交互,需要处理超过1 亿 token 的上下文。

RTFM 的关键贡献在于,它提供了一个在当今硬件上部署的未来世界模型的愿景,并确立了一种将世界模型视为从数据中端到端学习的渲染器的技术方法。

值得一提的是,你可以无限与 RTFM 互动,由你构建的世界永不消逝。未来,可扩展的 RTFM 还将支持建模动态世界,并允许用户与生成的世界进行交互。

1.效率(Efficiency)

RTFM 的核心目标是:在单张 H100 GPU 上实现实时、可交互的世界生成。通过优化模型架构、推理栈和蒸馏技术,它在现有硬件上展现出“未来级”的生成性能,证明了高效世界模型的可行性。

2.可扩展性(Scalability)

不同于传统依赖显式 3D 结构的渲染管线,RTFM 并不会显式地构建世界的 3D 表征。相反,它以一张或多张 2D 图像作为输入,直接生成来自不同视角的同一场景的 2D 图像。

RTFM 可以被视为一种“学习型渲染器”:它是一个自回归扩散 Transformer 模型,基于大规模视频数据进行端到端训练,通过观察训练集中的场景,学会建模 3D 几何、反射、阴影等特征,并在输入视角稀缺时进行外推生成。

视频|通过结合 RTFM 与 Marble 技术,可以从单张图像中创建 3D 世界。RTFM 可渲染复杂效果,如光照与反射,这些效果均通过端到端学习从数据中习得。场景:RTFM 处理薄玻璃结构。

视频|利用 RTFM 技术从短视频中渲染真实世界场景。场景:RTFM 模型在电视屏幕中模拟复杂反射。

3.持续性(Persistence)

RTFM 通过为每帧引入 3D 姿态,使模型的“记忆”具备空间结构,从而实现世界的长期一致性。它利用“空间记忆”与“上下文切换”机制,在不同区域动态调用相关帧,实现长时交互下的大规模世界持久生成。

视频|RTFM 结合上下文切换技术,使其能够在大场景中保持几何体持久化,同时保持高效运行。场景:采用 RTFM 渲染技术呈现的游廊,表面泛着光泽的反射效果

整理:乔治

如需转载或投稿,请直接在公众号内留言

标签: 李飞飞 gpu 空间智能 深度思考模型

相关新闻

凡本网注明“XXX(非现代青年网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。

特别关注

热文推荐

焦点资讯