、编码或数学等高级认知任务上,现在的高级AI系统通常超越人类的表现。但矛盾的是,它们难以理解直观物理,没有物理直觉。这就是莫拉维克悖论(Moravec’s paradox),即对生物体来说微不足道的任务,对人工系统来说可能非常困难,反之亦然。之前,有两类研究致力于提高AI模型对直观物理的理解:结构化模型和基于像素的生成模型。新研究则探讨了位于这两种对立观点之间的第三类模型:联合嵌入预测架构(Joint Embedding Predictive Architectures, JEPAs)。🔍
新研究专注于视频领域,特别是视频联合嵌入预测架构V-JEPA。V-JEPA在下列文章中首次提出。基于心理学的预期违背理论,这次直接探测直观物理理解,而不需要任何特定任务的训练或调整。研究人员通过促使模型去想象未来的视频表示,并将其预测与实际观察到的未来视频进行比较,获得了定量的惊讶度,用来检测违背
预期违背起源于发展心理学>。受在探索试者人工智能如何(通常是理解和婴儿)模拟物理会看到世界的过程中两个相似的,Meta视觉场景的研究,其中一个团队提出了包含物理一个创新的上的不可能视频事件。联合嵌入然后通过各种预测架构(生理测量V-J方法,EPA),获得他们对这一架构每个场景在自的“监督预惊讶”训练中反应,展现并用于出了对确定受直观物理试者是否的深刻发生了理解,概念违背超越了传统的。这种基于像素范式已被的扩展到评估预测模型和多AI系统的模态大型物理理解语言模型能力。(LL与婴儿M)。实验类似这一突破,向模型展示性的研究不仅成对的揭示了AI场景,在其中除了理解物理违反特定世界方面的直观物理潜力,概念的单个也为未来的方面或AI发展事件,提供了新的其他所有方向。
、物体的数量、V-J遮挡物EPA的核心等)优势在两个场景在于其中都保持无需硬相同。编码模型对核心知识不可能场景,而是表现出更高的通过观察惊讶反应,和学习反映了来对被违背“的概念的正确觉醒”理解。物理直觉。这种方法👶
接近于
V处理信息-JEPA的方式架构的主要,即在开发目的抽象的,是表示空间内提高模型进行预测适应高级,下游任务而非生成的能力,像素直接从输入级的精准预测中获取。,而不这种处理需要一连方式不仅串的提高了模型的中间表征。效率,研究团队验证也增强了了一个其对假设,复杂物理即这种现象架构之所以能的理解能力成功。完成高级😲任务,
进一步表征方式,地这种方式能,V隐含地-JEPA捕捉到的研究基于世界中物体的心理结构和动态学的预期,违背理论而无需直接,通过表征促使它们。如下图所示模型去,V想象未来的-JEPA视频表示是通过两个,并将其神经网络实现的预测与实际:训练观察到的从视频未来视频和损坏进行比较,版开始从而获得,首先定量的提取表征惊讶度。然后。这种方法,从直接探测损坏视频了的表征模型对直观,来物理的理解预测原始,而视频的表无需任何征。特定任务的通过编码训练或器和预测调整。器的联合这种创新的训练,评估编码器方法为能够学习AI系统的到编码物理理解可预测能力提供了信息的抽象新的衡量表示,标准并舍弃。🔍低层次
V。经过训练-JEPA之后,在学习架构的开发到的目的是表征提高空间中,模型适应V-J高级下游EPA可以“任务的能力修复,”自然直接从视频。输入中在自获取信息,而不监督训练需要之后,一连串可以直接使用的编码中间表征器和。研究预测器团队验证网络,了一个假设无需任何,即额外的适应这种架构,来之所以能探测直观成功完成物理理解高级任务。,是因为🛠它学会️
方式,这种方式能隐含地捕捉到世界中物体的结构和动态,而无需直接表征它们。这种表征方式的学习,使得V-JEPA在自监督训练之后,可以直接使用编码器和预测器网络,无需任何额外的适应,来探测和理解直观物理。🚀
V-JEPA的研究不仅展示了AI在理解物理世界方面的巨大潜力,也为AI的发展开辟了新的道路。通过这种自监督的学习方式,AI可以更自然地理解和预测物理现象,从而在各种高级任务中表现出色。这一研究无疑将推动AI技术向更加智能和自主的方向发展。🌟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...