{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

谷歌AGI机器人放大招:54人天团憋7个月,快进到替代人类

来源:量子位     时间:2023-07-29 16:26:25

  7月29日,爆火的大模型,正在重塑谷歌DeepMind的机器人研究。

  最新成果之一,就是他们耗时7个月打造的机器人项目RT-2,狠狠在网上火了一把:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  效果究竟有多好?

  只需用人话下达命令,面前这个小家伙就能挥动机械臂,思考并完成“主人的任务”。

  像是给流行歌手霉霉(Taylor Swift)递水、或是辨认明星球队Logo:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  甚至能主动思考,让它“捡起已灭绝的动物”,就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确pick恐龙。

  用网友的话来说,别小看这个能力,这是实现了从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。

  更“要命”的是,它还能轻松解决“给疲惫的人选一种饮料”这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去,简直不要太聪明。

  有网友看完感叹:

  等不及了,赶紧快进到给人类洗碗吧(手动狗头)

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  据了解,谷歌DeepMind这项成果由54位研究员合作产出,前前后后拉扯7个月,最终才变成我们看到的这样“so easy”。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  《纽约时报》介绍称,谷歌DeepMind机器人技术主管Vincent Vanhoucke认为,大模型彻底改变了他们部门的研究方向:

  由于(大模型)这一变化,我们不得不重新考虑整个研究项目。

  我们之前研究的很多东西,都已经完全失效了。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  所以,RT-2究竟能实现什么样的效果,这研究又具体是怎么一回事儿?

  将多模态大模型“塞进”机械臂

  这个名叫RT-2(Robotic Transformer 2)的机器人项目,是去年年底发布的RT-1的“进化版”。

  相比于其他的机器人研究,RT-2的核心优势在于,不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。

  具体来说,它具备三大能力——符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)。

  第一个能力是“符号理解”,能将大模型预训练的知识,直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”,但它却能从大模型的知识中理解并掌握“红牛”的外貌,并拿捏物品。

  第二个能力是“推理”,这也是RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能。

  技能一,包含数学逻辑推理的命令,“将香蕉放到2+1的总和的位置”:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  技能二,视觉推理,像是“将草莓放进正确的碗中”:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  技能三,多语言理解,即使不用英语也能完成指令,例如用西班牙语命令它“从一堆物品中挑出最与众不同的那个”:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  第三个能力是人类识别,准确识别并理解人类的行为,像开头看到的“将水递给泰勒·斯威夫特”例子就是能力展现之一。

  那么,这三个能力是怎么实现的?

  简单来说,就是将视觉-文本多模态大模型(VLM)具备的“推理”、“识别”、“数学”等能力,和机器人的操作能力结合起来。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  为了实现这一点,研究人员直接给视觉-文本大模型(VLM)增加了一个模态,叫做“机器人动作模态”,从而把它变成了视觉-文本-动作大模型(VLA)。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  随后,将原本非常具体的机器人动作数据,转变成文本token。

  例如将转动度数、放到哪个坐标点等数据,转变成文本“放到某个位置”。

  这样一来,机器人数据也能被用到视觉-语言数据集中进行训练,同时在进行推理的过程中,原本的文本指令也会被重新转化为机器人数据,实现控制机器人等一系列操作。

  没错,就是这么简单粗暴(手动狗头)

  在这次的研究中,团队主要基于谷歌的一系列基础大模型来“做升级”,包括50亿和550亿的PaLI-X、30亿的PaLI以及120亿的PaLM-E

  为了提升大模型本身的能力,研究人员也下了不少功夫,把最近爆火的思维链、向量数据库和无梯度架构(no-gradient architectures)都用上了。

  这一系列操作,也让RT-2和去年发布的RT-1相比,具有了不少新优势。

  下面就来看看具体的实验结果。

  性能可达RT-1三倍

  RT-2使用上一代机器人模型RT-1的数据进行训练(也就是说数据没变,只是方法不同了)。

  这些数据是用13个机器人在办公室搭建的一个厨房环境中耗时17个月收集到的。

  在实际测试中(一共历经6000次),作者给了RT-2许多以前未见过的物体,需要RT-2在微调数据之外进行语义理解来完成任务。

  结果完成的都相当不错:

  包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只,甚至是捡起快要从桌上掉下去的零食等复杂的命令。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  而从符号理解、推理和人类识别这三个细分能力上来看,RT-2的两个变体都比RT-1和另一种视觉预训练方法VC-1要好很多,性能最高可达3倍。

  如前文所述,这两个变体分别在120亿参数的PaLM-E和550亿参数的PaLI-X上进行训练。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  具体的泛化能力评估上,通过与多个基线模型的多类细分测试,最终发现RT-2性能提高了大约2倍。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  (稍显遗憾的是,我们还没看到它和其他团队最新基于LLM的机器人方法进行对比)

  而为了更好地理解RT-2的不同设置如何影响泛化结果,作者又设计了两大类评估:

  一是在模型尺寸上,仅在RT-2 PaLI-X变体分别采用50亿参数与550亿参数进行训练;

  二是训练方法上,分别采用从头开始训练模型vs微调vs协同微调的方法。

  最终结果表明,视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  另外,作者还在开源语言表基准上评估了RT-2,结果显示它在模拟基准上实现了SOTA结果(90%vs之前的77%)。

  最后,由于RT-2 PaLM-E变体是一个视觉-语言-动作模型,可以在单个神经网络中充当LLM、VLM和机器人控制器,因此RT-2还可以执行可控的思想链推理。

  如下图所示的5个需要推理的任务中(尤其最后一个非常有意思:选择可以替代锤子的物品),它接到命令后会先输出自然语言步骤,然后再给出具体的动作token。

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  最最后,总结来说,这个最新的RT-2模型,不仅能更好地适用于不同的、机器此前没见过的场景中,泛化能力更好了;与此同时,由于有了更好的大模型加持,它也掌握了一些有难度的新能力,比如推理。

  One More Thing

  谷歌将机器人研究的重心放在大模型上,似乎也不是“空穴来风”。

  就在这两天,他们和哥伦比亚大学合作的一篇关于“用大模型帮助获取更多机器人操作技能”的论文,同样很火:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  这篇论文提出了一种新的框架,不仅能让机器人很好地适应大模型,同时还能保留原本机器人的基础操作和控制能力:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

和RT-2有所不同的是,这一项目已经开源:

54人天团憋7个月!谷歌AGI机器人放大招:快进到替代人类

  属实是用大模型带动整个机器人部门升级了。

  再联想到前不久李飞飞团队的具身智能成果,可以说,用大模型带动机器人着实成为一种研究趋势,且已经让我们看到了一波非常有潜力的进展。

  对于这个研究方向,你有哪些期待?

  项目地址:https://robotics-transformer2.github.io/

  参考链接:

  [1]https://twitter.com/GoogleDeepMind/status/1684903412834447360

  [2]https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

  [3]https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html

  [4]https://github.com/columbia-ai-robotics/scalingup

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
谷歌AGI机器人放大招:54人天团憋7个月,快进到替代人类

谷歌AGI机器人放大招:54人天团憋7个月,快进到替代人类

  7月29日,爆火的大模型,正在重塑谷歌DeepMind的机器人研究。  最新成果之一,就是他们耗时7个月打造的机器人项目RT-2,狠狠在网上火
2023-07-29
一图看懂!哪些物品不能携带上火车

一图看懂!哪些物品不能携带上火车

  7月29日,最近暑期铁路客流火爆,很多人乘坐火车探亲旅游,往往会携带很多物品。  那么问题来了,哪些物品不能携带进站上车?哪些物
2023-07-29
印尼耍蛇人表演时被咬死 眼镜王蛇有多毒:一滴致命

印尼耍蛇人表演时被咬死 眼镜王蛇有多毒:一滴致命

  7月29日,在印尼有不少耍蛇人,他们以此为生,游走在刀尖之上,这不,近日有耍蛇人就因此而丢掉了性命。  据多家海外媒体报道,这名
2023-07-29
16家网约车平台被约谈:落实降低过高抽成比例要求

16家网约车平台被约谈:落实降低过高抽成比例要求

  7月29日,据新华社报道,近日,交通运输新业态协同监管部际联席会议办公室组织对滴滴出行、高德打车、T3出行、曹操出行等共16家网约车
2023-07-29
100万特斯拉车机多难用?被问界碾压 博主吐槽:80万智商税

100万特斯拉车机多难用?被问界碾压 博主吐槽:80万智商税

  7月29日,Model S Plaid国内售价102 89万元,它不仅搭载17英寸横向中控大屏,还配备了PS5级别的芯片性能。  作为特斯拉最强的电动
2023-07-29
1000元白菜价电视能买吗?这些信息必须掌握

1000元白菜价电视能买吗?这些信息必须掌握

  7月29日,价格是很多消费者在选择电视产品时头痛的问题,便宜的怕质量不好,贵了又觉得不划算,不知从何下手。而对于电视而言,现在的
2023-07-29
中国电影票房连续39天破亿 刷新影史纪录 史上最强暑期档!

中国电影票房连续39天破亿 刷新影史纪录 史上最强暑期档!

  7月29日,据灯塔专业版数据,截至7月29日,全国大盘单日票房连续39天破亿,刷新中国影史大盘票房连续破亿纪录。  与此同时,截至7月2
2023-07-29
一电动出租车涉水漂过,车船税没白交

一电动出租车涉水漂过,车船税没白交

  7月29日,近日台风杜苏芮来袭,不少地方遭遇了强降雨,引发城市内涝,淹没了很多低洼路段,这个时候,很多司机就犯了难,毕竟强行通过
2023-07-29
1599元价格屠夫!联想小新Pad Pro 12.7发布:骁龙870乱杀

1599元价格屠夫!联想小新Pad Pro 12.7发布:骁龙870乱杀

  7月29日,今天下午联想在CJ展会上召开了一场发布会,推出了多款产品,其中还包括一款全新的大屏平板——小新Pad Pro 12 7。  新机
2023-07-29
甄子丹女儿官宣出道 仅19岁 索尼音乐喜迎新人

甄子丹女儿官宣出道 仅19岁 索尼音乐喜迎新人

  7月29日,索尼音乐-RCA唱片中国宣布,创作型唱跳新人@Jasmine甄济如 加入RCA唱片中国,首发出道单曲《idk(对等关系)》,以轻快有力
2023-07-29

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com