森林舞会电玩城 | 鱼丸森林舞会

鱼丸森林舞会电玩城_森林舞会电玩城游戏大厅

当前位置:主页 > 新闻资讯 > 常见问题 >

伯克利和元世界的模型,用于体现智能:让AI通过

本文基于Yuty Bai,Danny Tran,Amir Bar,Yann Lecun,Trevor Darrell和Jitendra Malik的研究工作。纸张标题:全身条件的EgoCentric视频预测纸张地址:https://arxiv.org/pdf/2506.21552项目地址:https://dannytran123.github.io/peva/peva/reference/Reference https://x.com/yutokbai1002/status/19384442251866411281数十年来,人工智能领域一直在思考一个看似简单但非常基本的问题:哪种“世界模型”需要一种在现实世界中采取行动,计划和与环境有关的代理人?在许多早期研究中,世界模型是预测的引擎:只需给它一个抽象的控制命令,例如“向前转到仪表向前”或“剩下30度”,它可以在将来模仿图像。这种技术在实验室的环境中起着很好的作用,但是一旦将其放置在人类真正复杂的生活方式环境中,通常就很难避免。毕竟,PERSON不是漂浮在空中的相机。人们有脚,关节,骨头和非常具体的身体限制:关节运动的范围。躯干的稳定性和平衡的肌肉力量的极限。这些物理障碍确定并非所有的运动都可以进行,并且许多计划只能在触手可及,平衡和负担得起的内完成。这是一种物理学,它塑造了人类运动的真实方式,还塑造了我们看到和看不见的信息。为了提供一些例子:如果您想查看背后的情况,则需要转过头或转身。如果您想查看桌子底部的内容,则需要弯曲和跌倒。如果您想获得高度的杯子,则需要举起手臂并伸展身体。它们不是在稀薄的空气中,而是取决于身体和运动学的结构的行为。因此,如果AI也想像一个人一样预测未来,应该知道它的身体运动和视觉后果是什么ES会导致。为什么愿景是计划的一部分?从心理学,神经科学到行为,人们长期以来都发现了一条规则:在采取行动之前,人们可以回顾他们接下来会看到的。示例:当您走向水杯时,当水杯出现之前,将提前预测您的思想,然后转到角落,猜测即将到来的场景,并考虑一下您的手臂何时进入视野。 ITHIS使人们可以按时纠正动作并避免错误的能力。换句话说,我们不会根据所见图片做出决定,但是“想象力”总是利用我们的大脑来预测行动的结果。如果未来想在真实环境中像人们一样自然的计划,那么它需要拥有相同的简尼斯:“如果我这样行动,我接下来会看到什么?”前者的思想和世界世界模式的新思想并不是什么新鲜事物。从克雷克(Craik)在1943年提出的“小规模大脑模型”的概念到e诸如Kalman和LQR过滤器之类的控制理论的出现,近年来使用深入研究进行视觉预测,每个人都试图回答:“我正在采取行动,将来会发生什么?”但是ITO方法通常仅考虑低控制控制:诸如“正向”和“转向”之类的参数。与人体的整个运动相比,它看起来很简单。因为人类的运动:具有十二级自由的关节具有清晰的分层控制结构。视力运动的结果将继续改变环境。如果世界模型可能不考虑身体运动如何塑造视觉信息,那么很难生活在现实世界中。基于这种背景,伯克利分校和梅塔的研究人员提出了一个简单但非常自然的问题:“如果我真的做出了一个完整的人类运动,下次我会看到什么?”与仅使用“速度 +方向”预测的传统模型相比,peva a feedG 3D在模型中的整个人(包括联合位置和旋转)的姿势,并使用历史视频框架输入它,从而使AI知道:身体运动如何重新调整我们所看到的世界。为了提供一些例子:武器举动→对某些事物的障碍,新区域也可以暴露于蹲下→视角变化的高度,地面的特征使头部转动→原始重新进入的信息可见范围。这是主要的PEVA:预测未来,不仅可以预测像素,还可以预测身体的视觉后果。 PEVA功能PEVA现在可以做事:预测整个身体未来运动中提供的持续的第一视频视频。在“原子动作”中分解复杂的行为,因此仅控制左手或转动头部。它不仅是一个预测,还可以产生长达16秒的视觉流。支持“反事实”推理:如果采取其他措施,您会看到什么?计划在多个动作序列之间,并通过视觉均匀性选择更好的解决方案。在多样化的一天 - 一天的环境中学习,并避免在简单的情况下过度拟合。用语中,PEVA就像“人体驱动的视觉模拟器”,它使AI可以获得更紧密的人类想象力。 Technical Details The Peva Technology is very simple and direct, mainly including: Whole-Body Action Input (3D Pose in 48 Dimensions) Conditional diffusion Model + Transformer, taking into account Visual Generation and Time Logic, Training on Real-Simulated Video + Action (Nymeria Dataset) Using A TimeJump strategy to predict a feasible multi-scheme planning in 16 seconds: among several action trajectories, use visual similarity to choose the most likely solution to achieve the goal.研究人员还大量讨论了其文章的局限性和前景:例如,仅是人体计划的一部分或部分目的。所有这些都值得将来缓慢填充。从审查中来看,PEVA在某些方面是一个可行的探索:短期视觉预测和动作的高度对齐。长时间可能需要16秒的视频仍然保持良好的一致性。控制原子运动的能力,例如仅预测手动运动,并且仅预测。计划:Subukan多动作模拟,然后选择最接近目标的模拟。这些功能至少在一个方向上证明:使用身体来推动未来的视觉预测是一个合理的体现智能进入点。在最前沿,值得探索的方向包括:对多模式输入实际相互作用的闭环控制。更复杂的任务的非凡计划。当AI试图像人一样行事时,也许还需要先学习:如果我以这种方式移动,接下来会看到什么。结论可能是这样的:“人们看到未来的原因是因为身体在移动,并且愿景得到了相应的更新。” Peva只是一个傻瓜l尝试,但有望为未来提供一些灵感,以解释未来,而退休的马拉斯是一颗宝石。
Copyright © 2024-2026 鱼丸森林舞会电玩城_森林舞会电玩城游戏大厅 版权所有

网站地图