上周五, 稚晖君 不是在微博浅浅预告了一波 “ 好东西 ” 嘛。
这不刚周一,智元 机器人 马上就把热乎的抬上来了。
机器人给你端茶倒水、煮咖啡。
把面包放进面包机、给烤好的面包涂抹果酱,再把面包端到你面前,整套动作一气呵成。
还能在公司当前台,充当一把迎宾。
就是吧,见多了各种人形机器人的视频之后,世超对这种程度的展示,已经见怪不怪了。
所以单单这些演示,还不足以能称之为好东西。智元机器人这次发布的基座大模型 go-1 ( genie operator-1 ),才是真正值得拿出来唠一唠的好东西。
这么说吧, 这个基座大模型,让困扰了人形机器人许久的数据匮乏、泛化能力差的问题,又有了更高效的解法。
大伙儿可能也知道,现阶段的人形机器人之所以看起来很拉胯,很重要的原因之一,就是 缺乏高质量的数据。
而获得这些数据的成本,同样也非常高。
为了解决这个行业难题,去年底,智元机器人就已经开源了百万真机数据集 agibot world 。
agibot world 的数据都来自于智元的数据采集工厂,里面搭了不少模拟真实场景,数据采集师每天的任务,就是教机器人怎么执行某项任务。
根据官方的说法, agibot world 涵盖了超过 100 万条轨迹、 217 个任务和 106 个场景。但即便是这个量级的数据,对于机器人来说仍然是杯水车薪,而且,也没办法解决机器人泛化能力差的问题。
所以,智元机器人才在 agibot world 的基础上,又提出了新的 villa ( vision-language-latent-action )架构 。这个架构,就是 go-1 大模型的核心。
世超去翻了翻智元机器人发布的论文,简单用大白话给大伙儿介绍一下,这 villa 到底牛在哪。
首先在数据上, villa 架构就没那么挑。
根据官方的介绍, villa 架构是 由 vlm ( 多模态大模型 ) 和 moe ( 混合专家 ) 组成。
传统的 vla 架构,结合了 vlm 和端到端的特点,所以这种架构需要大量标注过的真机数据来训练,又费钱又费力,而且数据量还少。
villa 虽说本质上还是 vla 架构,但它强就强在, 互联网上的那些人类视频数据它也能用。。。
也就是说,基于 go-1 大模型的机器人,理论上只要 “ 看过 ” 视频,就能学会相对应的动作。
至于其中的原因,世超觉着很大概率要归功于 “ 潜在动作 ” ( latent actions )。
咱还是拿 vla 作为对比, vla ( vision language action )架构,在执行任务的时候是这么个流程:输入图像和语言指令,机器人再根据这些信息,生成并执行指定动作。
看似简单粗暴,但稍微遇到点复杂的任务, 机器人就会变成看得懂也听得懂,但是做不好甚至于做不到。
举个例子,咱们让机器人( vla 架构 )做一杯咖啡,机器人能看到咖啡机在哪,也能听得懂我要它做咖啡。
但是, vla 架构下的机器人要直接从 “看到了咖啡机 ” “ 听懂了要做咖啡 ” ,一下子想清楚所有步骤,然后马上动手,中间没有思考的过程。
deepmind 的 vla 模型 rt-2
问题就在于,泡咖啡其实中间有很多小步骤,比如找到咖啡豆,打开咖啡机,按下开关,就算是人来了,都得想一下要先干嘛再干嘛。
更何况是 “ 一根筋 ” 的 vla 架构,让它处理中间这些复杂的步骤,多少有点为难它了。
但 villa 架构,引入了两位 “ 专家 ” : 隐式规划器( latent planner )和动作专家( action expert )。
这两位专家不仅能让机器人想得更多,而且能做的事情也变多了。
专有名词看不懂没关系,咱继续举例子。
假设现在输入一段视频,是一个人拿起杯子喝水。
vlm 多模态大模型会先把视频处理了,接着潜在动作模型( latent action model ),会把那些复杂的视频动作,拆解成几个关键步骤,比如 “ 抓取 ” 、 “ 移动 ” 和 “ 喝水 ” 。
但光到这一步还不够,隐式规划器( latent planner )要继续把关键步骤进行加工,生成更详细的步骤: “ 抓取(杯子),移动(杯子到嘴边),饮用 ” 。
最后,动作专家( action expert )出场,把这些步骤全都转换成机器人能理解的信号,让机器人执行动作。
所以 villa 架构在执行复杂任务时的表现,要比 vla 更出色,也更能适应当下人形机器人的训练需求。
而且世超还注意到, villa 架构并不依赖具体的硬件。
换句话说, vla 架构是根据特定的机器人本体、特定场景,来生成动作信号,而 villa 架构生成的是 “ 抓取 ” “ 移动 ” 这种通用动作标记,任务泛化能力更好,也更容易迁移到其他机器人平台。
给大伙儿一句话总结就是, go-1 让机器人能从互联网的人类视频数据中学习,并且多了拆解任务的能力,提高复杂任务成功率的同时,泛化能力也变强了。
如果 go-1 的效果真的像官方描述的那样,那么这对于整个人形机器人行业来说,或许都是一个好消息。
数据不愁,还不挑平台,这机器人训练起来可就顺手多了。就是不知道这个 go-1 ,智元会不会选择继续开源。
听说,智元机器人明天还要放出个惊喜,咱们等一手好吧。
撰文 :西西
编辑 :江江&面线
美编 :萱萱
图片、资料来源 :
智元机器人(b站、微博)
智元机器人, vla 进化到 villa ,智元发布首个通用具身基座大模型 go-1
agibot world colosseo : large-scale manipulation platform for scalable and intelligent embodied systems
日本男同志gay小鲜肉 | 9天前 |
藤蔓入侵双腿大开呻吟h男男 |
女生吊着挠痒痒胳膊窝和腋下肚子 | 7天前 |
365day韩国 |
明日方舟成人h小说 | 0天前 |
国产精品一区二区av白丝下载 |
女人高潮的24种图片 | 8天前 |
巨胸爆乳唐舞桐露双奶头破解 |
女人高潮叫床声大全 | 8天前 |
醉酒酷似杨幂原版视频 |
日本无翼乌全彩j奶无遮挡漫 | 6天前 |
崩铁大黑塔光脚图片高清 |
性教育片巜性按摩师2在线播放 | 2天前 |
美女裸身被❌羞羞孕妇网站 |
裸体美女屁屁疼片大全 | 8天前 |
内衣内裤哪里拿货便宜 |
揉我奶头⋯啊⋯cao我老公视频 | 3天前 |
女战士giga战死 |
鞠婧祎体被❌羞羞网站动漫 | 6天前 |
桃乃木香奈av免费观看 |