当 AI 遇见柏拉图黑洞李飞飞颠覆认知的瞬间

luot262492 · 发表于 2026-1-9 10:44:56

本帖最后由 luot262492 于 2026-1-9 10:46 编辑

不是科幻，不是幕后演示——AI 用一张图就构建了可探索的真实 3D 世界，这一刻机器真正“看见现实”。刚刚落幕的 CES 大展上，AI 教母李飞飞现场演示了一项令业界哗然的技术：在没有剪辑、没有预先准备的情况下，仅用一部普通手机拍摄一张办公室图像，几分钟后便在本地电脑生成了一个戴上 VR 就能走进去、可互动的 3D 办公室模型。这不是全景图，也不是 360°视频，而是真正遵循物理规律、具有空间一致性的三维世界。
5611767969506_.pic_hd.jpg

之所以用“柏拉图黑洞”来形容这次突破，是因为当前大多数 AI 就像困在洞穴里的囚徒，只能看到墙上的“影子”——文本、图片、视频，却无法真正理解现实世界的结构和物理法则。李飞飞提出，AI 若不能跨越这种“洞穴”，理解空间和物理关系，它就永远是“看图的书呆子”，而非真正的智能体。
5631767969507_.pic_hd.jpg

这次展示的核心技术来自李飞飞创办的初创公司 World Labs 推出的 Marble 世界模型：一种可生成高保真、持久化三维世界的 AI 模型。据报道，这款模型已经正式商用，并支持通过单张图像、一段视频甚至文本提示来创建完整 3D 场景，同时开放了创意实验中心和订阅服务体系。

Marble 并不是简单把 2D 图像“拉伸”成 3D，而是生成一个完整、可导航、可交互的数字空间：你走进去，它知道你在哪儿；你回头，它记得路径。这样的“空间记忆”特性让生成世界不仅是图像，更是一个可操作的物理环境。与此相辅的还有 World Labs 推出的 RTFM 实时生成模型，可在单张 H100 GPU 上运行，AI可在单张GPU上高效生成世界。
5651767969508_.pic_hd.jpg

空间智能的应用远不止于展示技术。对游戏、电影制作而言，这项技术意味着实时生成无限地图、无空气墙的真实体验；对设计和创意工作者而言，它让 3D 场景生成更像写文字一样简单。更为重要的是，对机器人训练来说，这或许是通向具身智能的关键一步。MIT 的最新研究指出，用生成式 AI 自动构建厨房、客厅等虚拟环境，可以大幅提升机器人在真实环境中学习动作和策略的效率，因为 AI 可先在虚拟物理世界中反复试错。
5661767969509_.pic_hd.jpg

全球科技公司和研究机构也在加速布局空间智能领域。NVIDIA 通过其 Cosmos 物理 AI 库推动数字双胞胎与机器人仿真训练，而腾讯等中国企业也提出了自研 3D 世界模型与具身智能平台，助力机器人理解和导航三维空间。
5681767973094_.pic_hd.jpg

李飞飞本人近日在采访中强调：传统语言模型虽然能生成信息，但它们缺乏对空间、几何和物理的理解；而空间智能和世界模型不仅要生成，还要理解世界的结构和演变，这才是通向真正智能的核心路径。
5691767973095_.pic_hd.jpg

这种世界模型并非孤立技术。研究者认为，它标志着 AI 正从“读写时代”迈向“构建世界时代”：不仅能生成语言和图像，还能构建、推演和操作三维现实。它将深刻影响 AI 基础设施、机器人行动、AR/VR 交互乃至整个智能系统的工程架构。
5701767973095_.pic_hd.jpg

但快速发展的同时也带来伦理与监管挑战：当 AI 能实时生成高度逼真的 3D 场景时，深度伪造、虚拟犯罪模拟等风险也随之上升。李飞飞强调，技术越强大，社会与法律责任越重要，需同步建立规范体系以确保技术安全可靠地造福人类。
对于普通读者来说，这意味着 AI 不再只是写诗、写代码或者生成图像，而是具备“理解空间、构建世界、操作实体”的智能体。未来几年，我们或许会看到能自主导航家庭空间的 AI 机器人，懂得更复杂动作的智能助理，甚至是人人可用的三维创作平台。空间智能的大门已经打开，而这场颠覆认知的浪潮，才刚刚开始。
5711767973096_.pic_hd.jpg

Email		自动登录	找回密码
密码			立即注册

当 AI 遇见柏拉图黑洞 李飞飞颠覆认知的瞬间

浏览过的版块

当 AI 遇见柏拉图黑洞李飞飞颠覆认知的瞬间