当前位置:首页 > 应用案例 > 正文

伯克利具身智能图谱:深度强化学习浪尖上的中国 90 后们

短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant和AnywareRobotics也正在湾区闪耀。六家具身智能公司,八位90后创始人,他们都成长于深度强化学习的摇篮。作为最早一批开启新范式的人,他们探索AI和Robotics的故事要从踏入...

短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant和AnywareRobotics也正在湾区闪耀。六家具身智能公司,八位90后创始人,他们......

短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant和AnywareRobotics也正在湾区闪耀。

六家具身智能公司,八位90后创始人,他们都成长于深度强化学习的摇篮。

作为最早一批开启新范式的人,他们探索AI和Robotics的故事要从踏入伯克利校园说起。

潮起深度强化学习

2016年春,伯克利计算机系每学期都会变化的frontier课开始了。

Frontier课又称临时课,内容不定,老师多变,是为了探讨学术前沿而设——这次,轮到了“深度强化学习”。

走进只有二三十人的教室,吴翼和高阳、段岩(RockyDuan)、陈曦(PeterChen)坐在了一起。

讲台上,PieterAbbeel和SergeyLevine轮番上阵分享最新研究,系统性理论教学与进阶内容并不多。此时鼎鼎大名的人工智能实验室BAIR尚未成立,伯克利最火的教授还是做统计、贝叶斯机器学习的和MartinWainwright等人。

当时OpenAI尚未提出近端策略优化(PPO)算法,其前身TRPO算法(由JohnSchulman和两位讲者提出)、DeepMind刚改进的DQN(深度强化学习开山之作)以及强化学习经典的策略梯度(PolicyGradient)算法是这门临时课的重点。

作为刚入门强化学习的“小白”,吴翼不懂就问,常抱段岩和陈曦的“大腿”,因后两人正跟着导师PieterAbbeel在OpenAI实习,研究强化学习算法的框架RLLib,天天写代码。

此时的吴翼刚结束了一个学期的焦虑与煎熬:博二的他在StuartRussell组研究贝叶斯推理,继续大三暑研就开始参与的概率编程语言项目。上课之余,他还在带本科生参加DARPAChallenge,项目重且每学季都有汇报。论文九投一中,新方向颗粒无收,反而是本科论文中了。

吴翼

但同年,和吴翼同届的ChelseaFinn与SergeyLevine、PieterAbbeel开发的算法第一次实现了用深度学习做机器人控制,让机器人BRETT学会了将瓶盖拧到瓶子上、将衣架放在架子上以及用锤子爪端拔出钉子等技能。

尽管圈内鲜有人认可,但伯克利AI方向的几位教授已开始带着学生试跑强化学习,比如TrevorDarell和其学生EvanShelhamer(现DeepMind科学家)。他们踩了些坑后判断这个方向可行,于是2015年夏天,PieterAbbeel开了个大组会,宣布整组转向深度强化学习。

目睹隔壁组的转向,申博时就想做大规模机器学习系统的吴翼也对深度强化学习产生了兴趣。最初他选择伯克利的原因之一,便是被AMPLab孵化出来的Databricks及其开源大数据处理工具Spark吸引,觉得学术界能做出工业级别的系统很厉害。

但导师StuartRussell对此不太感冒,其研究偏好在贝叶斯推理、逻辑推理,喜欢优雅的算法和AI理论,而非工程性较强的项目。

吴翼和Stuart讨论过一个问题:如何将逻辑推理系统扩展应用到大规模数据处理?

吴翼认为由下至上(bottomup)的逻辑推理系统比较容易实现,先从简单情况开始,把整个逻辑系统中容易扩展(scale)的部分迁移到Spark上,以便先把算力利用起来实现一些应用进展,然后再慢慢向完整的推理系统和逻辑理论靠近。

Stuart则支持由上而下(topdown),不能一开始就仅仅为了计算能力去盲目追求扩展性(scalability),应该从更高的起点出发,先构建一个完整的推理系统,再考虑如何使其可扩展。

文无第一,师生二人的理念不同,虽然Stuart的观点从做科学的角度看很有道理,但吴翼对自己的学术偏好也有自己的坚持。该研究导师感兴趣的问题,还是做自己最想做的方向?

在纠结中失眠半年后,吴翼想了一个解法:在做组里课题的同时,多加一个新方向的研究项目。这个想法也获得了Stuart的支持。

2015年圣诞节假期结束回校,吴翼就去找了PieterAbbeel,自我介绍后就开门见山:“Iwanttodosomedeepreinforcementlearningprojects(我想做点深度强化学习的项目)”。

Pieter欣然同意,让吴翼从三个项目中自选,吴翼没多考虑就选了“ValueIterationNetworks”这个项目——半年后,他就发表了第一篇深度学习论文,并获得了NIPS2016最佳论文奖。

2016年7月,吴翼去参加IJCAI,偶遇刚读博的JakobFoerster(现剑桥教授,多智能体领先者之一),与其聊到智能体之间如何通过交流推测帽子颜色,发现这和自己在清华姚班读本科时接触过的博弈论有异曲同工之妙。

这两项工作对吴翼的启发很大,他也由此对多智能体学习产生了兴趣,并转向该方向的研究。后来博士毕业后,吴翼加入OpenAI也是从事大规模强化学习系统与多智能体的研究。

此外,在伯克利读博期间,吴翼还到Facebook实习,在田渊栋的指导下参与了视觉导航最早的工作之一House3D。House3D是Facebook具身智能体研究平台Habitat的重要组成部分,后来其“Habitat挑战赛”也成为了具身智能最热门的挑战赛之一。

被吴翼抱大腿的段岩和陈曦,由于在PieterAbbeel组,也最早经历了伯克利深度强化学习浪潮的崛起。

2011年,段岩从深圳中学毕业后来到伯克利读本科,和陈曦是计算机与统计双专业的同班同学。此外,段岩还多修了数学专业。

段岩人称“RockyFast”,做事效率高、速度快,因为想创业,和陈曦两人用三年读完本科后就创立了一家公司叫Sellegit,专注于对移动电商平台的开发与研究,比如以9分钟极速闪拍模式爆火的时尚电商拍卖平台PEACH。

段岩RockyDuan

这段创业经历也很快结束,只持续了一年左右。2015年8月,两人又回到伯克利,一起在Pieter组读博。

段岩与Pieter的缘分可以追溯到大三,他发表的第一篇论文就是Pieter带领的铰接式机器人工作,被机器人顶会IROS2013接收。

读博后不久,两人又跟着Pieter加入了当时团队只有10人的OpenAI,研究深度学习、强化学习和模仿学习。可以说,他们是最早接触深度强化学习的中国青年。

先行者们很快认识到深度强化学习的局限性:它依赖大量环境互动,且适应性差,一旦环境变化就需要重新训练,成本高昂。相比之下,人类和动物能够利用丰富的先验知识和经验迁移,快速学习新技能。

为了解决这个问题,段岩提出将元学习与深度强化学习结合,目标是让模型学会如何快速学习,并在2016年末提出了RL²算法,陈曦也参与其中。

为了支持学生,Pieter干脆将自己演讲PPT的第一页换为论文介绍,只要有外出分享的机会,就会向在场观众介绍,“这是我们今年最重要的工作。”

除了元强化学习开山之作RL²算法外,在OpenAI,陈曦还跟着生成对抗网络(GAN)之父IanGoodfellow,参与了提高训练GAN技术的工作,论文引用量超过了一万。

陈曦PeterChen

开创AI+Robotics

PieterAbbeel的成名之作是在斯坦福吴恩达组读博时用强化学习控制直升机倒飞。2008年他到伯克利后,除了开拓深度强化学习,还最早将原本壁垒很大的深度学习与机器人领域结合,创立了机器人学习(RobotLearning)实验室。

机器人学习研究的主要内容,也是如今具身智能领域最核心的方向之一。

除了TRPO,Pieter团队在该方向还发表了许多引领性的工作,例如2015年的泛化优势估计(GAE)首次实现了3D机器人运动学习,2018年的柔性致动评价(soft-actorcritic)能在数小时内教机器人解决真实世界的问题、引用量接近一万,是迄今为止最流行的深度强化学习方法之一。

2016年陈曦和段岩的本科师弟张天浩加入Pieter组读博时,Pieter组内的研究重点也从强化学习转向了机器人与AI算法的结合。

从左到右:PieterAbbeel、陈曦、张天浩、段岩

段岩与陈曦提出的RL²算法虽能让机器人从自身经验中快速学会一项技能,但机器人在实验室学习的经验是简单和人为的,可学习的技能范围也有限。

那时候,陈曦和段岩常从伯克利校园自驾15分钟,到奥克兰唐人街的中餐厅吃饭。一次晚饭,二人聊起RL²算法,发现对机器人快速学会技能后具体的下一步是什么并不清楚。

他们意识到,机器人该掌握哪些技能、应用在哪些具体场景、任务的实施对象、在多长周期内完成、所需硬件有哪些等等问题依旧悬而未决——学术领域的抽象追求和真实行业的实际需求差距太大。

于是他们就产生了一个想法:创业。

“RockyFast”再次用三年时间读完博士,然后拉上还没毕业的好友陈曦、师弟张天浩,以及对他们无条件支持的导师PieterAbbeel,一起离开当时已经近百人规模的OpenAI,2017年9月成立了一家名为“EmbodiedIntelligence”的机器人创业公司。

但很快,因为名字太直接、与“EmbodiedAI”的大研究方向几乎重名,就像用AGI给大模型公司命名一样不合时宜,他们又将公司名改为了“CovariantAI”。

有了Pieter的加入,CovariantAI在种子轮就融到了700万美元,后续的投资人阵容更是众星云集,包括GeoffreyHinton、YannLeCun、李飞飞、JeffDean等人工智能领域的大牛,连比尔·盖茨也参与了去年的C轮融资。

也是在2017年前后,伯克利计算机系的几位大牛一起筹备成立了一个虚拟的组织——伯克利人工智能实验室(BAIR)。

JitraMalik和TrevorDarrell是BAIR最初的两位发起人。他们认为,伯克利的AI虽强,但各自为战、没有形成群体的影响力,所以希望通过BAIR把计算机系的各个团队聚集起来,整合资源做更大的事。

这个想法获得系内的一致认可。于是参与BAIR的各个组汇聚到同一个大平层里,宁可吵一点也要让所有人每天都能交流,无论是老师之间、学生之间还是师生之间都能平等合作。

Trevor的两位中国学生高阳、许华哲也是从这时开始,从视觉转向,开始同PieterAbbeel、SergeyLevine合作研究强化学习相关的课题。

高阳是2014年到伯克利读博,和吴翼同一届。到伯克利之前,高阳在清华计算机系读本科,期间曾加入朱军团队参与研究贝叶斯推理,以及在谷歌北京跟着原谷歌中国工程院副院长张智威和清华学长李方涛研究NLP。

高阳

进入伯克利后,高阳第一年上了许多包括MichaelJordan在内的教授的课,发现他们做的研究偏理论,涉及大量数学公式推导而非编程实践,与自己的预期差距不小。

高阳想做更有现实影响力的工作,于是就找到了TrevorDarrell。彼时Trevor正在研究机器人跨模态的视觉和触觉交互数据集,让高阳也参与进来,算是对他的考察。项目完成后,Trevor对高阳很满意,高阳就成功进了Trevor的组读博。

机缘巧合下,后来视觉与触觉也成为如今机器人最重要的两个感知模态。高阳的第一个工作也被CVPR2015的“视觉领域数据集的未来”workshop接收。

Trevor的风格是鼓励学生自由探索自己感兴趣的方向。他有一个特别知名的中国学生叫贾扬清,就是在这样包容的研究氛围中开发出了深度学习框架Caffe。高阳进组后也先做了一个深度学习网络结构的工作,并在头两年跟着Trevor深耕视觉。

除了视觉的感知,Trevor还鼓励学生广开思路,探索可动、可执行的人工智能(ActionableAI),去做跟决策相关的研究。于是2016年博二下学期,高阳开始接触自动驾驶,暑假还到Waymo实习,参与了自动驾驶的感知与决策研究。

决策涉及强化学习的知识,但此时高阳只在frontier课里上过Pieter的课、没上手做过项目,而这又跨出了Trevor擅长的研究范围,高阳就同Trevor提议,跟大力钻研RL的Sergey合作,Trevor爽快同意,团队便一起探索彼时仍少人涉足的模仿学习预训练与强化学习微调相结合的算法。

项目最早的实验针对人形机器人站立、跑动等控制问题展开,后期再转移到自动驾驶领域。“本质上自动驾驶就是一个特殊的机器人控制问题,所以最开始研究的很多算法,在机器人和自动驾驶两个领域都完全通用。”高阳告诉雷峰网。

从技术发展的先后顺序看,自动驾驶当时恰好处于人脸识别等纯视觉技术与机器人之间,技术未定型又不至于完全不成熟,需解决视觉感知和决策问题,正合高阳的意。

到了博四,高阳参与了由Trevor领衔的DeepDrive项目。作为北美最大的自动驾驶研究组织之一,此项目汇集了包括Sergey、Pieter在内的十余位教授,Toyota、Meta和Sony等汽车制造商和上下游公司出资赞助科研,高阳也因此第一次接触硬件。

在2017年,高校里有一台完整的自动驾驶汽车还是件新鲜事,因本校空间有限,还得到里士满湾校区做实验。高阳负责开发核心算法并将其整合到汽车上验证效果,以Sim2Real的方式测试端到端算法在现实世界中的表现。

当看到自己单独开发的算法能让汽车通过简单的训练在测试场里连续行驶三四圈,高阳很惊喜,“当时从下至上把ROS(机器人操作系统)摸了一遍,深刻理解了硬件实际操作与纯仿真环境的不同。”

2016年,许华哲也从清华毕业来到伯克利Trevor组读博,首个项目便是与高阳合作的端到端自动驾驶课题,被CVPR2017录取为OralPaper。

他们发布了当时最全面、时长最长的自动驾驶数据集BDDV。

在伯克利,许华哲与高阳、吴翼的关系最好。他们都来自清华,又都对AI+Robotics感兴趣,三个人有一个微信小群,经常约着一起吃饭。

许华哲刚进Trevor组时,团队主攻域迁移与视觉-语言两大方向,Trevor建议许华哲和高阳去“开荒”彼时热度飙升的自动驾驶。

但做了几个自动驾驶的项目后,许华哲认为视觉技术的本质是识别或生成,而他更希望创造出能做决策、与世界互动并对世界产生影响的智能体——也就是机器人。

所以博一下学期,得益于BAIR对跨组合作的鼓励,许华哲开始跟Sergey合作,研究重点也从单纯的视觉转向了强化学习、视觉与机器人结合的方向。

许华哲

因早期机器人非常昂贵,他们的研究主要以模拟器和游戏为主。许华哲和Sergey合作过2.5个项目,是关于赛车游戏、超级马里奥和仿真机器人;还和同样喜欢打星际争霸的师兄唐浩然(曾任Covariant研究科学家)一起,同Pieter合作了一个打星际争霸的项目。

转方向后,许华哲最大的感受是个人的研究乐趣提高了,“因为成果很直观,比如(强化学习)能让游戏打得更好,当然代码难度也更大。纯视觉更多是对神经网络的调参能力要求较高,强化学习的神经网络结构相对简单,但要处理一大堆模拟器等底层的东西。”

2018年2月,许华哲到Facebook人工智能研究院(FAIR)实习,和田渊栋、马腾宇合作。当时马腾宇刚拿到斯坦福教职offer,想在gapyear探索些不同的理论,许华哲就与他合作了机器人的相关内容。

随着机器人成本逐渐下降,许华哲在2019年第二次入职FAIR时开始逐渐上手碰真机,真正地从ActionableAI转到具身智能。

当时Facebook跟伯克利有个“FAIRBAIRTriangle”项目,双方合作,学生可以在两地各有一位导师,许华哲在Facebook的导师是RobertoCalandra(今德累斯顿工业大学教授),在他和Trevor的指导下做机器人触觉相关项目,完成了触觉数据库Pytouch与让机械手弹钢琴的工作。

在触觉灵巧手项目中,许华哲意识到,真机与仿真间的gap很大:触觉模拟器不好用。和只需要按下重启即可做下一次实验的模拟器不同,真机的某零件损坏就得修理或重买,是个“脏活”,“2020年疫情自己在家里拿杯子采数据,触觉传感器突然坏了,得等网购的东西到才能修好,节奏马上就慢了下来。”

Robotics+AI

如果说计算机系作为深度强化学习摇篮研究的是AI+Robotics,那么隔壁的机械工程系则是在盟友的影响下,加速了对Robotics+AI的探索。

具体而言,计算机系是从上层感知技术向底层逐步渗透,从AI出发,在遇到AI的局限(例如可解释性不足)时,再整合控制理论等元素;机械工程系则从底层起步向上拓展,侧重于模型基础研究和工业应用,在遇到传统技术局限时,引入AI技术进行增强。

也是从2017年起,两大专业的交叉内容越来越多。

随着伯克利CS系的frontier课逐渐系统化,加入了理论推导和更多细节,其最终在2017年正式成为全球首个深度强化学习(DRL)课程。此时DRL在业界才刚火起来,基本停留在研读论文的阶段,由SergeyLevine授课的CS285自此成为该领域的“圣经”。

第一次正式开课,伯克利机械工程系的陈建宇、汤特也来了。两人在机械系统控制实验室(MSCLab)读博,师从模型预测控制(MPC)的奠基人、美国工程院院士MasayoshiTomizuka。

Sergey备课极认真,深入浅出地从基础知识到最前沿技术,串起深度强化学习,配上编程作业和仿真器教学,学生们得以兼修理论和实践。当时还在读博的ChelseaFinn偶尔也来做嘉宾讲座,分享自己的第一手研究。在最后的开放式大作业中,陈建宇开发了一种分层强化学习框架,并首创了一个无人车仿真器进行训练,填补了当时该领域的空白。

读博期间,陈建宇主要参与无人驾驶项目。

他的导师Masayoshi自1980年代起便对无人驾驶技术充满热情,曾在加州高速公路上开展无人驾驶车队列项目,希望通过紧密编队提高运输效率。但由于成本过高和技术限制,该项目最终被搁置。

直到2015年深度学习技术兴起,无人驾驶车辆的感知能力显著提高,Masayoshi认为无人驾驶发展前景光明,于是重启了相关研究。在此背景下,陈建宇成为了组内最早做无人车的PhD之一。

陈建宇

博三起,陈建宇在无人驾驶领域进行了端到端的探索,他坚信端到端学习是未来发展的趋势,并在仿真环境中进行了强化学习和模仿学习的研究,初步尝试将世界模型的概念融入算法中,尽管受数据和技术所限未能在实车上应用。

即使主要课题和奖学金都来自无人车项目,在验证学习算法时,陈建宇也使用了其他形态的机器人,如机械臂等,以展示具身智能的普适性。在他看来,无人车也是一种机器人形态,“而且无论是MPC还是强化学习,都是适用于不同形态机器人的通用方法。”

尽管在论文层面没有直接合作,陈建宇同CS系在方法和创意的交流十分频繁,特别是向Sergey请教。

比陈建宇大两届的汤特则和PieterAbbeel交流更多,还邀请了Pieter加入自己的博士委员会提供指导。读博期间,汤特的研究主要围绕模仿学习而展开。

“装配过程很难用精确的数学建模来解析。但人类有一种直觉,在感受到阻力时调整装配的方向和移动速度,而机器人在需要柔顺性的任务上表现不佳,其核心问题在于不具备此直觉,”汤特解释道,“模仿学习能将这种直觉转移到机器人身上,且即使在数据匮乏的情况下,也能高效地学习到高维度的信息。”

汤特

在刚体装配有所突破后,接下来的两年半时间里,汤特进一步挑战更复杂的柔性体装配。像汽车生产的四大环节中,冲压、焊接、涂装都已高度自动化,但总装环节仍然劳动力密集。一个重要原因就是以线束为代表的柔性体很难被自动化装配,涉及实时3D追踪和运动规划的问题。

汤特使用模仿学习的策略,通过较小样本量的人类演示,教会机器人完成复杂的柔性体操作任务,比如在不同的初始状态下给绳子打结、折叠衣服,控制人形机器人双手协作安装线束。

通过这两个项目,汤特深刻理解了感知与决策的关系:3D视觉是第一步,用于获取物体三维信息并进行初步处理。但关键挑战在于将识别结果与机器人动作决策相结合,而模仿学习通过将视觉信息转化为运动指令来填补这一空白。

2018年汤特毕业,正遇上湾区机器人创业的浪潮,陈曦和段岩想开拓物流仓储场景,需要擅长工业机器人的伙伴互补,便通过Pieter联系汤特,想让他加入Covariant一起合作。

汤特考虑再三,觉得自己对工业场景和客户需求的理解还不够深刻,决定先到工业界历练几年,便婉拒了邀请,来到发那科参与组建先端研究所(AdvancedResearchLab),成为其首位成员。

同年来到伯克利的罗剑岚和陈建宇志趣相投,前者做强化学习和真机机器人,后者做强化学习和自动驾驶,两人常一起约饭,讨论强化学习的应用。

2017年暑假,罗剑岚参与西门子伯克利分部的项目,和Pieter、Sergey开始合作,把深度强化学习应用到工业生产中,学习策略以解决传统机器人解决不了的问题,比如高精度装配。

这也是罗剑岚在强化学习领域的起点,所设计的算法不仅要能进行规划,还要能实时响应外部变化,并制定策略成功完成装配。那时,在MuJoCo模拟环境中进行强化学习实验、刷榜、发论文是常规操作,但罗剑岚却认为,当时的强化学习算法性能榜单与现实世界机器人控制问题脱节,并没有解决实际问题。

几篇论文下来,强化学习效果有限,罗剑岚却决心“一条路走到黑”。2020年,罗剑岚毕业,Pieter两次邀请他加入Covariant,但他觉得时机不是特别成熟便婉拒了,想先去谷歌积累经验。

加入谷歌后,他先后在DeepMind、EverydayRobot和GoogleX工作,跟随StefanSchaal。StefanSchaal是诺奖摇篮马普所的创始所长以及机器人强化学习、控制的泰斗人物,联结整个欧洲机器人圈子。罗剑岚读着Stefan的论文成长,全面掌握了机器人系统的各个层面,包括从底层动力学到上层控制的所有知识。

罗剑岚

他在谷歌参与的项目孵化为工业机器人创企Intrinsic后,罗剑岚决定重返学术界,想在回国找教职前先兼职读一年博士后,便去询问了在GoogleX期间合作较多的Sergey。

先前合作时,Sergey训练机器人几十个小时以完成简单任务,而罗剑岚做插拔等工业精密任务的成功率高达100%,这让Sergey深刻意识到团队里需要有人既懂机器人系统又懂learning,才能将二者结合。Sergey热情表示,二人能力互补,提议他全职两年,罗剑岚便在2022年回到了伯克利。

强化学习应用门槛高,流程易出错且不稳定,用其解决实际任务一直是AI社区想攻克的难点。

因此,在2023年6月,罗剑岚萌生了提供一个开源的端到端解决方案的想法,包括强化学习环境和机器人控制器,以便用户能够轻松下载并使用,就像使用仿真器训练机器狗一样简单。

基于这一愿景,罗剑岚主导与斯坦福、华盛顿大学、谷歌等机构合作,将自己谷歌时期的项目成果在伯克利进一步发展完善,在有视觉信息的情况下,能够在20分钟内学会一个100%成功率的复杂操控策略,效果显著。

在有视觉输入的情况下,真机强化学习训练操控策略基本上已被放弃,但在此工作后,大量的企业和高校又重新捡起来这个几乎被放弃的方案,比如Toyota研究所、波士顿动力、北大、斯坦福等等。

一次徒步时,罗剑岚和Sergey聊起仿真,说如果有100亿美元,是去建世界上最大最好的仿真器,还是去收集世界最大的数据集?

两人同时脱口而出:数据集。

“仿真对移动(locomotion)很有效,但不是魔法,相对于基于模型的控制,是更好的计算工具。而且移动的模型很简单,狗是桌子模型、双足是倒立摆模型,外界的不确定性也有限。”

罗剑岚认为,高性能的操作必须建立在真实数据上,“操作的难点在真实世界连续多样的变化,以及各种难以计算的复杂物理,比如物理接触,柔性物体,尤其是在涉及视觉输入的情况下,因此重点是设计出具有高样本效率的算法,且与硬件和控制器对接无误。”

具身智能创业

伯克利的具身智能人才似乎天然具有创业的基因:国内,边塞科技、星动纪元、星海图和千寻智能在一年内陆续诞生;国外,除了2017年的Covariant,汤特等人于2023年1月创立的AnywareRobotics也早早入局。

汤特在婉拒Covariant的邀请后,在发那科先端研究所锻炼了四年,作为创始成员领导AIVision项目从无到有并实现商业化。

随着对机器人在工业领域的商业化落地的认识加深,汤特觉得自己的研究基础加上对工业领域的理解已成熟,是时候出来创业了。

两位MSCLab的同门师弟范永祥、周亦扬也有创业的想法,三人能力互补、一拍即合:汤特擅长模仿学习与3D视觉;范永祥擅长运动规划;周亦扬则专注于自动驾驶。

三方面结合起来,就构成了他们机器人最核心的要素——一套移动机械臂需要自动驾驶的能力来移动底盘,运动规划的能力来进行手臂抓取,同时还要有视觉和学习的能力来进行引导。

AnywareRobotics希望打造重型通用机器人,应用于物流、生产场景。汤特认为,未来将有两种主要的通用机器人形态互为补充,“一种是灵活的人形机器人,擅长轻任务;另一种则是体型更大、更强壮的轮式机械臂,擅长执行重体力任务。我们在打造的是后一种通用机器人。”

作为“伯克利归国四子”,吴翼、高阳、许华哲、陈建宇的路径出奇的一致,都是“清华—伯克利—清华叉院”。

同在BAIR的吴翼、高阳、许华哲座位挨得很近,当时Stuart组里只有吴翼一个中国学生,他便总和Trevor组里同为零字班的高阳聊天,许华哲来到伯克利后又变成了三人小队。陈建宇则和许华哲在学生会干活,时不时一起组织中国留学生的烧烤局。

BAIR三人常在名为“葫芦娃”的小群里约着干活后一起去实验室门口的foodcourt吃饭,临近毕业时也开始讨论对于求职的迷茫与焦虑。

作为首批回清华叉院任教的“青椒”,吴翼是最早做出决定的。

国内互联网的朝气蓬勃让吴翼决定回国,那就留在字节吗?

2018年的字节处在从传统系统转向深度学习的阶段,用大规模神经网络做搜推是个不错的机会。但经历过2016年3000人的字节,面对2018年的字节,吴翼觉得自己有很多想做的技术探索,尤其是强化学习方向,似乎在当时看来很难在一个大厂里实现,而直接创业又没有特别好的时机。琢磨一周后,吴翼人生中第一次冒出当老师的念头,想在自己的课题组做强化学习。

9月,吴翼联系了自己本科毕设老师徐葳,询问是否有职位空缺,徐葳回复说有,并嘱咐他尽快回国。10月,吴翼从美国飞回北京参加面试,在飞机上赶完了最后一版PPT。面试结束后,他进到姚期智院士的办公室,一拿到合同就问签字的位置,姚先生笑着告诉他,应该由自己先签字。就这样,吴翼成了第一个在姚先生办公室里就即刻签约入职的“青椒”,也是第一个回姚班教书的姚班毕业生。

吴翼认为,自己在学生时代的特点是涉猎比较广泛,而强化学习又是一个很通用并且能把很多不同方向整合起立的框架,因此希望作为教师组建团队后,同时推进语言注入、多智能体强化学习算法、机器人,最后实现一个完整的人机交互系统。“我的目标不是做一个机器人硬件,而是一个需要承载在硬件上做交互的大脑。”

签约清华后,吴翼跟姚先生提出在美国业界多待一年半再入职,姚先生爽快答应了。

起初吴翼想去在学术界声誉好且发表论文多的GoogleBrain,面试后谷歌对吴翼也很满意,不过由于吴翼坦诚只能干一年,headcount紧张的谷歌需要花时间走内部流程。

与此同时,曾与吴翼合作过的BobMcGrew给他打电话,邀请他下周入职OpenAI,吴翼希望多等谷歌一个月,Bob也同意稍后再沟通。2018年平安夜前一天,Bob再次联系吴翼,问他考虑得如何。吴翼便决定不等谷歌,去OpenAI,就这样成为了多智能体研究组的一员。

在OpenAI,吴翼加入了智能体玩捉迷藏的项目,让智能体分成红蓝两队进行游戏。研究显示,只用简单的+1/-1奖励机制和大规模的强化学习,智能体也能自行进化,掌握工具使用,并发展出六种不同的策略和对策。为了衡量智能体行为的复杂度,团队还设计了五种测试,所有通过强化学习训练的智能体在测试中都达到了最高分。

2019年,吴翼一边在OpenAI工作,一边开始招首批博士生。一人做语言注入,强化学习加语言;一人做强化学习+机器人+控制;还有一人是电子系汪玉老师的博士生,和吴翼联合指导,做多智能体学习。年末,Bob在内部评审会时建议吴翼多待两年,给他升职发股权,毕竟他入职时OpenAI还是个没有股份的NGO。吴翼却觉得发股权对自己意义不大,还是得回清华当老师。

回到清华开始自己做机器人后,吴翼深刻体会到硬件之难,“以前伯克利路线是较AI驱动而非传统硬件驱动,刚开始上真机踩了不少坑。”

彼时吴翼的高中与伯克利师兄、时任字节AILab总监的李磊也想做AI机器人,和吴翼一拍即合,决定一起学习、踩坑。吴翼带着学生李云飞和字节合作,从头开始搭建了机械臂、足式机器人等软硬件设施。经吴翼推荐,李云飞还到Covariant实习,让段岩帮忙培训培训。

最早回国的吴翼也是最早开始商业化尝试的。2020年在上海期智研究院成为项目负责人后,吴翼有了更大的探索空间,在姚先生的大力支持下,吴翼根据自己在OpenAI的经验和自己的认知,想做全栈且和工程结合的研究,于是2021年在上海期智研究院组建了专注于大规模强化学习技术研究的科研团队。

一次和网易的合作,吴翼发现团队已具备充足的能力,就决定用商业化公司的方式最大化强化学习技术的商业影响力,恰好碰上疫情爆发,封控结束后就遇上了大模型的浪潮。“还是很幸运吧,回顾以往,做的选择都很随机。”

2023年5月,吴翼团队孵化成立了边塞科技,目标是用强化学习为更多人创造更好的智能体验。

在一众伯克利博士+清华叉院教职的创业者里,边塞科技是唯一不涉及机器人硬件的。“算法、应用、多模态融合以及硬件都很重要,”吴翼拆解自己的宏观愿景,“但是人不能追求高而全,还是要先去最好自己擅长的事情,硬件的环节我不是专家,算法、成本、供应链都有很多要学习和探索的部分,因此就不在公司里面商业化运营了,机器人就研究院做技术研究。”

第二个确定入职清华的是高阳。

2018年,姚期智院士到伯克利招聘,和高阳简单交流后热情邀请他回国面试。此前高阳主要在美国面试公司,没考虑过回国当老师,但既然有面试机会,便决定试一试。

12月31日,高阳在清华进行了两场学术报告后的当晚,就收到了叉院offer。火速到手的offer出乎了高阳的预料,经过2个月的深思熟虑,他决定拒绝Waymo、Nuro、Aurora等多家自动驾驶公司的offer,回国教书。

此时已是高阳博士生活的最后一年,自动驾驶在学术界能做的探索已基本完结,去到清华能做什么呢?

回到伯克利,高阳参加了JitraMalik和AlexeiEfros等多位视觉教授的组会,聊起人的智能如何进化而来的哲学问题。

大家认为,五指灵巧手能进行复杂物理操作,为智能的发展提供了基础,因此猴比猫狗智能;而猫狗之间,狗的群居特性促进了沟通的发展,使得狗与人社交时强于猫——因此,智能产生的本源,是和现实物理世界产生交互(与环境、与人类、与机器人本身)。

看到具身智能作为大有可为且尚处初级阶段,很自然地,高阳想到把自己做自动驾驶的技能转到通用机器人上。

除了钻研已久的感知外,为了继续提高对决策的了解,高阳向PieterAbbeel提出自己将去清华任教,计划做机器人的研究,想先到他的组里做一年博士后,还分享了很多想做的题目。Pieter也想把更高级的视觉技术引入强化学习里,便爽快答应了。

在机器人领域,传统的输入并非基于纯视觉信息/场景图像,而是基于对物理世界的低维表征,例如物体的XY坐标。高阳与Pieter的合作便是针对从高维度的视觉数据中提取对决策有用的信息这项极具挑战的工作,其中最知名的EfficientZero项目更是将这一研究方向推向了极致,并提高强化学习的样本效率。

2020年8月,高阳入职清华叉院任助理教授,聚焦计算机视觉与机器人结合领域,探索强化学习在机器人领域的应用,让机器人通过“看”操纵周围事物。

高阳想实现的终极场景是,在物理实体上实现科学研究中的算法,建立一个可以“用眼睛看”并服务于家庭场景的机器人,如告诉机器人“做一杯咖啡”,它就会走到咖啡机前,进行磨豆子、拉花等一系列操作。

去年年中,在看到大模型和具身智能领域的变革后,高阳决定创业。他清楚具身智能产品必须是软硬件结合的解决方案,自己虽有多年AI软件经验,但缺乏硬件和商业化背景,就开始寻找既懂硬件也懂机器人落地瓶颈的合伙人。

在共友的牵线下,高阳结识了前珞石机器人CTO韩峰涛,后者有十余年机器人行业经验,不仅很懂硬件,还做过1000多个落地场景,对于各场景的卡点到底在软件还是硬件非常清楚。而韩峰涛也有创业打算,在找AI人才,两人能力互补、一拍即合,便决定一起创业。

今年2月,千寻智能成立,做具身智能基座大模型,是国内少数选择端到端技术路线的具身智能创企,选择轮式+双臂的方案。

入局创业后,高阳对技术路径与团队协作也有了新的认识,在最近的两次美国之行中,高阳还分别和Deepak与Sergey交流了SkildAI和PhysicalIntelligence的发展情况,还聊到了具身大模型的未来,包括其构建方法、面临的挑战以及所需的数据量等关键话题。

至于比吴翼、高阳小两届的许华哲,也在2022年夏天回到了清华。

一年前,许华哲从伯克利毕业,来到斯坦福的吴佳俊小组读博士后。吴佳俊也对机器人很感兴趣,彼时组里正在进行让机器人捏橡皮泥、学会弹塑性物体操作任务的项目。

过年期间,许华哲和好友包饺子庆祝春节,突然意识到如果让机器人学会饺子的世界模型,就能使一个机械臂独立完成包饺子的步骤。于是,几人搭好工具库和厨房后,让机器人随机选择工具与面团任意互动以采集数据。

在斯坦福时,许华哲就拿到了叉院的offer。刚回国时,许华哲发现具身智能的概念在国内很少人买账,清华里研究机器人的依旧是以传统MPC等方法为主的自动化系。

许华哲希望做出可以决策的机器人或智能体,便成立了自己的实验室,在次年正式命名为具身智能实验室,以包含视触觉的机器人泛化灵巧操作和控制为长,也探索DRL在实际机器人复杂任务中的应用。

许华哲支持学生们去尝试各种奇思妙想,上课很有热情,课堂教学评价常排在前5%,被吴翼称之为“经典的伯克利Style”和“当老师的料”。他选择加入星海图的那天,恰逢十一假首日,正带着组里的博士生去郊游。

许华哲合流星海图其实是个巧合:他看到具身智能的机会后想自己创业,听闻赵行已开始,便来咨询心路历程和时间节点。而星海图在筹建期,赵行就拉上许华哲和高继阳一起吃饭,大家聊得投机,想法高度契合,许华哲丝滑加入,负责带领操作团队,同样采取轮式+双臂的构型方案。

除了“葫芦娃”三人外,MSCLab的陈建宇则在2020年末入职叉院。

此时正值疫情爆发,陈建宇在暑假的面试还得线上进行。回国后的前两年里,陈建宇除了延续无人驾驶的工作外,也开拓了包括机械臂、轮式、四足等多形态的机器人方向,并在2022年的春夏之交开始自己做人形,研究更通用的具身智能。

在实验室研究双足人形的陈建宇逐渐发现其具有能改变世界的产业价值,可改变世界不能仅靠在实验室做demo,得借助更多商业化、产品化手段,而公司能吸纳社会资本,招聘、股份激励等更宽松。随着小米、特斯拉等产业界代表的入局与ChatGPT的诞生,陈建宇意识到是时候了——2023年8月,星动纪元创立。

涉猎过包括无人车等多种形态的机器人后,陈建宇认为,不同形态之间没有本质上的区别,很多原理是相通的,但若想实现智能,必须一开始就做最终极的人形(双手和双腿),“可以在过程中辐射其他形态,但不能从开始就降低天花板。”

在硬件方面,业界对于如何制造高爆发力双腿和灵巧手尚无统一的解决方案。陈建宇团队就先从腿部开始,从前两代的MPC逐步升级到2023年以强化学习为核心的步态行走网络,让机器人能在雪地、长城、戈壁滩等复杂路面上稳定快速行走。

至于手部设计,陈建宇选择了一条与众不同的路径:缩小腿部关节应用在手部上,以实现更精细的操作和更高的灵活性。因此,他们的灵巧手为全驱动,拥有超过十个主动自由度,而特斯拉的手部仅有六个。

结语

彼时具身智能(EmbodiedIntelligence)还不是热词,机器人学习(RobotLearning)随着深度学习范式的兴起开启了新的一页,在感知有所突破后,AI和Robotics开始双向奔赴。

他们隐隐感觉到:下个十年的机会来了。

段岩、陈曦、张天浩、吴翼、高阳、许华哲、陈建宇、汤特、罗剑岚从深度强化学习出发的伯克利一派,以先驱者之势火速突破上层感知,让机器人真正开始具备类人的学习能力。

更重要的是,在得益于AI之强势时,他们也清楚地意识到硬件和底层控制的价值,无论是计算机系还是机械工程系,都在往交叉点靠拢,追求全栈式覆盖。

最合适冲浪的波浪周期为8-16秒,对于伯克利派系而言,深度强化学习的浪从十年前开始,站在浪尖上的他们,此刻正踏着具身智能的波峰,再望向下一朵浪。

最新文章