这个AI模型能“直觉”理解现实世界如何运作
作者: aeks | 发布时间: 2025-12-14 10:36 | 更新时间: 2025-12-14 10:36
学科分类: 人工智能 心理学 控制科学与工程 计算机科学与技术
这是一项针对婴儿的测试:在桌上放一杯水,用木板挡住,再将木板移向杯子。若木板径直穿过杯子,仿佛杯子不存在,婴儿会惊讶吗?许多6个月大的婴儿会,到1岁时,几乎所有孩子都通过观察形成了物体恒存的直觉概念。如今,一些人工智能模型也具备了这种能力。
研究人员开发出一种AI系统,它通过视频了解世界,当遇到与所学知识相悖的信息时,会表现出“惊讶”。该模型由Meta公司研发,名为视频联合嵌入预测架构(V-JEPA),它不对视频中包含的世界物理规律做任何假设,却能逐渐理解世界的运行方式。
阿姆斯特丹大学认知科学家米夏·海尔布伦(Micha Heilbron)研究大脑和人工系统如何理解世界,他表示:“他们的观点从先验角度看非常合理,结果也超级有趣。”
### 高层抽象
正如自动驾驶汽车工程师所知,让AI系统可靠地理解所见内容并非易事。大多数旨在“理解”视频(如分类内容“有人打网球”或识别前方汽车轮廓)的系统在“像素空间”中运行,本质上把视频中每个像素视为同等重要。
但这些像素空间模型存在局限。想象理解一条郊区街道,若场景中有汽车、红绿灯和树木,模型可能过分关注树叶晃动等无关细节,忽略红绿灯颜色或附近汽车位置。布朗大学计算机科学家兰德尔·巴莱斯特里奥(Randall Balestriero)说:“处理图像或视频时,你不会想在[像素]空间中操作,因为有太多细节无需建模。”
2024年发布的V-JEPA架构旨在规避这些问题。尽管构成V-JEPA的各种人工神经网络细节复杂,但其基本概念很简单。
普通像素空间系统的训练过程是:掩盖视频帧中的部分像素,训练神经网络预测这些被掩盖像素的值。V-JEPA也会掩盖视频帧的部分区域,但它不会在单个像素层面预测掩盖区域后的内容,而是使用更高层次的抽象(即“潜在表征”)来建模内容。
潜在表征只捕捉数据的关键细节。例如,给定各种圆柱体的线条画,名为编码器的神经网络能学会将每个图像转换为数字,代表每个圆柱体的基本特征,如高度、宽度、方向和位置。这样,数百或数千像素包含的信息就转化为少数几个数字——潜在表征。另一个名为解码器的神经网络则学会将圆柱体的关键细节转换为圆柱体图像。
V-JEPA专注于创建和重现潜在表征。从高层看,该架构分为三部分:编码器1、编码器2和预测器。首先,训练算法获取一组视频帧,在所有帧中掩盖相同的像素集,并将帧输入编码器1。有时,视频的最后几帧会被完全掩盖。编码器1将掩盖后的帧转换为潜在表征。算法还将完整的未掩盖帧输入编码器2,编码器2将其转换为另一组潜在表征。
接着预测器开始发挥作用。它利用编码器1生成的潜在表征来预测编码器2的输出。本质上,它根据掩盖帧生成的潜在表征,预测未掩盖帧生成的潜在表征。通过重建相关的潜在表征而非早期系统的缺失像素,模型学会关注道路上的汽车,而非纠结树上的树叶。
Meta公司研究科学家昆汀·加里多(Quentin Garrido)表示:“这使模型能够丢弃不必要的……信息,专注于视频更重要的方面。丢弃不必要信息非常重要,也是V-JEPA致力于高效完成的事情。”
预训练阶段完成后,下一步是调整V-JEPA以完成特定任务,如图像分类或识别视频中的动作。这个适配阶段需要一些人工标记数据,例如给视频打上包含动作信息的标签。与为特定下游任务端到端训练整个系统相比,最终任务的适配所需标记数据少得多。此外,相同的编码器和预测器网络可适配不同任务。
### 模仿直觉
今年2月,V-JEPA团队报告了他们的系统在理解现实世界直觉物理属性(如物体恒存性、形状和颜色恒常性,以及重力和碰撞效应)方面的表现。在一项名为IntPhys的测试中,AI模型需判断视频中的动作在物理上是否合理,V-JEPA的准确率接近98%,而著名的像素空间预测模型仅略好于随机猜测。
V-JEPA团队还明确量化了模型在预测与观察不符时表现出的“惊讶”。他们让在自然视频上预训练的V-JEPA模型观看新视频,然后通过数学计算V-JEPA对视频未来帧的预期与实际情况之间的差异。团队发现,当未来帧包含物理上不可能的事件时,预测误差会飙升。例如,若一个球滚到某个遮挡物后面暂时消失,而后续帧中球没有从遮挡物后重新出现,模型就会产生误差。这种反应类似于婴儿的直觉反应——可以说,V-JEPA“惊讶”了。
海尔布伦对V-JEPA的能力印象深刻:“发展心理学文献表明,婴儿无需大量接触就能学会这类直觉物理知识。他们首先证明这是可学习的,且无需先天先验知识,这很有说服力。”
伦敦大学学院计算神经科学家卡尔·弗里斯顿(Karl Friston)认为,V-JEPA在模仿“我们大脑学习和建模世界的方式”方面走在正确轨道上,但仍缺少一些基本要素。他说:“当前方案缺少对不确定性的恰当编码。”例如,若过去帧的信息不足以准确预测未来帧,预测就是不确定的,而V-JEPA无法量化这种不确定性。
今年6月,Meta的V-JEPA团队发布了下一代12亿参数模型V-JEPA 2,它在2200万段视频上进行了预训练。他们还将该模型应用于机器人领域:仅使用约60小时的机器人数据(包括机器人视频和动作信息)进一步微调新的预测器网络,然后用微调后的模型规划机器人的下一步动作。加里多表示:“这种模型可用于解决简单的机器人操作任务,为该方向的未来工作铺平了道路。”
为测试V-JEPA 2,团队设计了更难的直觉物理理解基准测试IntPhys 2。V-JEPA 2和其他模型在这些更难的测试中仅略好于随机猜测。加里多称,原因之一是V-JEPA 2只能处理约几秒钟的视频输入,并预测未来几秒钟的情况,更长的内容会被遗忘。这让人再次联想到婴儿,但加里多想到了另一种生物:“在某种意义上,该模型的记忆让人联想到金鱼。”
标签: 人工智能模型 婴儿认知 潜在表征 直觉物理 视频联合嵌入预测架构