
文|刘俊宏
编|王一粟
“之前机器人一直没有翻越智能化的大山,大模型打破了这道门槛”。
两年时间,机器人行业经历了智能硬件史上最大的反转。从波士顿动力被质疑是骗局,到消费电子、汽车产业链、云厂商、传统玩具公司们集体热捧,地瓜机器人开发者生态副总裁胡春旭一句话解释了机器人赛道炙手可热的秘密。
6月11日,在地瓜机器人算控一体化机器人开发套件RDK S100的发布会上,地瓜机器人CEO王丛发现,机器人行业正在蓄势待发。
“第一是机器人智能化的节奏开始加快,大量传统机器人在变得智能。第二是每个月都有新形态机器人的创业公司出现,并很快成为行业热点。”王丛总结说。
赶在机器人大规模爆发前夕,地瓜机器人想要向行业兜售标准化的机器人“大脑”。
产品指标上看,RDK S100是一颗集成了CPU、BPU和MCU的异构SoC,能为机器人提供百TOPS级的算力支持。产品目前限时优惠定价为2499元。在软件层面上,RDK S100还提供了包括操作系统和集成开发环境在内的一整套工具链,提供“开箱即用”的机器人开发体验。“只需10分钟就能体验到所有核心AI功能”,胡春旭说。

为了展示算控一体化机器人开发套件的适配能力,我们在本次发布会见到了搭载RDK S100的宇树G1、能自由跨过地形的机器狗、自动分拣的机械臂。在当下常见的机器人运动逻辑控制、视觉识别领域上,地瓜机器人初步证明了自己的能力。


为什么地瓜机器人要在当下发布一款机器人开发平台?
这是因为,越来越多的机器人开发者正在达成平台化开发的共识。
比如人形机器人赛道,今年我们在机器人马拉松和机器人格斗比赛上,都见到了宇树G1的身影。胡春旭认为,“宇树的机器人是一个比较标准化的人形载体。有了标准化的载体之后,机器人厂商比较方便针对业务做不同的配置”。
使用统一的硬件载体,意味着机器人厂商可以在硬件成熟度还不够高的时期,绕过灵巧手、减速器、丝杠等一系列机器人零部件“从零到一”的开发,快速加入机器人生态。
而当开发者有了标准的机器人智能开发平台之后,造机器人的难度再次降低了一大截。成立机器人创业公司,可能不再需要一位天才当CEO了。
“地瓜机器人考虑怎么以Infra的身份,让开发者快速把机器人做出来”。
诚如胡春旭所言,为了让行业涌入更多开发者,地瓜机器人打造了一套中小学生都能参与的机器人开发生态。面向专业机器人开发者,地瓜机器人还给了代码注释、功能视频介绍、一键跳转代码仓库等便捷功能,主打一个“包教包会”。
当越来越多的开发者在地瓜机器人的生态中“玩转”机器人之后,胡春旭也道出了地瓜机器人的野心——
“地瓜机器人想做类似英伟达 CUDA的机器人生态。”
就像是英伟达CUDA加速一切AI大模型开发一样,地瓜机器人也想要成为机器人行业的加速者。
以下是光锥智能和地瓜机器人开发者、生态副总裁胡春旭的独家对话实录:
(为了方便阅读,文字细节做了些许优化。)
谈产品,地瓜机器人想做最好的机器人平台
Q:请简单介绍一下这次发布的地瓜机器人RDK S100算控一体化机器人开发套件的规格,与行业内其他的平台有什么区别?
胡春旭:RDK的意思是Robotics Developer Kit,后面的数字代表SoC的名称。RDK产品的定位是面向机器人的各类开发者,同时也是地瓜机器人面向机器人生态的底座。
关于产品规格,我们根据机器人使用场景分了四个算力段。第一是算力需求不太高的,例如扫地机、割草机,这些算力需求在5TOPS到10TOPS的级别。到四足机器人、低速物流车、消费级的机械臂的话,对应100TOPS算力。在往上是300TOPS对应半人形和用途相对复杂的物流车。通用人形机器人的话,是600TOPS算力。针对不同机器人的需求,RDK已经推出了RDK X3、RDK X5,对应算力分别为5TOPS到10TOPS。这次的RDK S100,对应的是百TOPS级算力需求的机器人平台。后期会有面向300和600TOPS算力段的产品。RDK S100的意义在于地瓜机器人在具身场景提供SoC,并能提供相对应完整的开发套件平台。
跟市面上其他产品的区别,就是我们根据机器人技术演进路径和需求来定义的SoC。目前市面上对机器人的理解,一般是大脑以算为主,小脑负责控制。在落地的过程中,目前技术主要分为两大流派。
第一是端到端的方式,一站式解决所有问题。这种方式的泛化性虽然好,但它对数据要求比较高,这导致它落地比较慢。第二个流派是采用分层的模型架构,其中包含运动、感知、语言理解的模型,这些模型分层处理任务。目前第二种流派已经被很多公司验证过,是目前最可能让产品量产的架构。所以RDK S100提供的就是大小脑分层架构的平台。
最后说下技术规格。RDK S100总体是异构架构,有CPU、BPU、MCU三个核心单元支撑大小脑的“算”和“控”。“算”的部分是CPU和BPU实现,“控”是BPU和MCU一起完成。BPU同时支撑大脑跟小脑的模型加速,CPU负责大脑侧的多任务逻辑处理,MCU负责机器人的实时运动控制。我们认为这样的技术架构是最适合现阶段机器人的,尤其是具身机器人落地的平台。
Q:为什么要在当下时间点去推出针对具身智能的通用平台?
胡春旭:我们从更宏观一点的角度看。2023年ChatGPT一下子炸开了整个大模型圈子,我们看到了大模型让机器人翻越智能化大山的希望。整个机器人行业都在随着大模型的发展而快速变革。我们认为,机器人行业是一个非常大的市场。机器人具有改变千行百业的能力,所以行业空间远远大于智能汽车或手机。当前大量公司都在找具身机器人的业务切入点。为了帮助这些机器人快速落地,地瓜机器人选择在当下推出标准化的机器人平台,进而在行业大变革之前实现关键卡位。
Q:能否谈谈我们与英伟达机器人开发平台和CUDA之间的区别?我们在哪些部分的设计考虑得更深?
胡春旭:地瓜机器人当下做的事,其实很像英伟达早期做的AI生态。地瓜机器人想做类似英伟达CUDA的机器人生态。地瓜机器人希望机器人开发平台能够像CUDA加速AI模型一样,也能加速机器人开发。
与英伟达机器人开发平台的区别,主要是英伟达与地瓜机器人两家公司的定位不同。英伟达的核心定位是算力,为模型提供算力支撑。现在各大机器人厂商离不开英伟达云平台,其中之一的原因是机器人数据、仿真、训练等环节需要大量算力支撑。
英伟达偏向于云,地瓜机器人的定位就偏向于端。地瓜机器人考虑的是,如何解决机器人大规模出现而产生的智能芯片需求。定位差异,使得地瓜机器人与英伟达选择了不同的社区运营策略。地瓜机器人会考虑怎样帮开发者快速做一个机器人出来。开发者依然可以用英伟达的云平台做仿真。但模型训练完后,地瓜机器人会提供端侧验证的工具链,支持开发者把训练好的模型快速落地到芯片上。同时我们还会提供一系列技术、生态、产业链、人才等资源支持,帮助不同层面的开发者实现量产。如果使用英伟达方案的话,很多初创公司可能会顾忌成本、功耗等问题。这部分是地瓜机器人做得比较好的部分。
Q:地瓜机器人做了哪些培育机器人开发者生态的动作?
胡春旭:对于开发者而言,地瓜机器人提供的远远不是一个硬件,而是一整套平台。
这套架构下层是RDK开发板,这是硬件的部分。中间层是OS(操作系统),地瓜机器人在其中加入了大量机器人中间件来帮助BPU充分运行模型和算法。OS再往上是能帮开发者快速把硬件和软件功能用出来的工具。这些工具能帮助开发者更好地面向不同场景进行开发。例如有个工具叫RDK Studio,提供IDE(集成开发)环境。在这个环境下,开发者只需要10分钟就能体验到RDK所有核心AI功能。开发者只需要插一根Type-C线,就能通过图形化实现快速功能落地。
简单易用的工具,还能满足不同能力开发者的需求。
针对入门开发者,中小学生都能用这种方式快速落地想要的功能。针对进阶开发者,我们提供NodeHub平台帮助开发者写代码。在这个平台里,我们不仅汇总了功能和相应代码,而且还对代码做了详细解释并配备视频介绍。所有代码都支持Apache 2.0(一种开源协议)协议,还能快速跳转到Github代码仓库。目前我们已经有超过200个功能和开源代码仓库来支持开发者了。这些功能都是来源于地瓜机器人跟客户商业合作的沉淀。面对科研级别的开发者,地瓜机器人有算法团队,会对具身前沿方向算法进行研究。这部分研究会以发论文或举办技术挑战赛的方式,吸引开发者跟我们一起拓展。
总结下来,就是我们会围绕开发者的不同层次去做运营。
Q:很多开发者使用宇树的机器人作为硬件载体,您是怎么看待这个现象的?是否可以理解地瓜机器人想要成为机器人智能开发的宇树?
胡春旭:为什么很多人用宇树的机器人作为硬件载体?我认为这是生态发展的必然过程。从整个智能硬件发展的历程中看,当生态蓬勃发展的时候,行业会涌现非常多的业务方向,这时候就需要一个相对标准化的载体。对于机器人也是一样,宇树的机器人是一个比较标准化的人形载体。有了标准化的载体之后,机器人厂商比较方便针对业务做不同的配置。宇树现在被认为是一个平台化的硬件提供商,还是蛮正常的。
地瓜机器人跟宇树之间更多的是合作关系。我们也会用宇树G1作为硬件平台,是因为我们需要验证RDK S100能在宇树机器人实现进一步机器人开发。地瓜机器人是提供机器人平台化开发的基础设施公司,人形机器人只是其中一个支持的机器人类型。
总体来看,我们将机器人大概分为三大类。第一是传统机器人,例如传统工业机器人、扫地机器人。这部分行业格局已经形成,出货量也比较稳定。第二是新形态机器人,例如割草机、泳池机器人,这部分行业还在起量的过程中。第三部分就是现在的具身机器人,包括人形、四足、低速无人车等等。在具身领域里,RDK S100是一个切入口。后面还会有更高算力的芯片满足其他具身类的机器人。
谈技术,机器人最大的困难是场景碎片化
Q:如何看待机器人行业目前缺训练数据的问题?地瓜机器人有哪些应对方式?
胡春旭:目前行业内主要通过两种方式解决数据问题。第一类就是造数据。无论是仿真还是通过人类行为采样,目标都是数据生成之后喂给端到端模型。第二类方式是对算法和模型优化,先实现小样本达成比较好的效果,后续再持续学习增强模型效果,这种方式对数据需求相对较小。我们作为底层平台,两种模式都要支持。
针对第一种,我们会更倾向于仿真。目前来看,Sim2Real(一种强化学习,解决机器人在模拟与现实环境表现不同技术)是机器人行业比较有效解决数据缺失的方案。但这条路线很依赖仿真环境中物理引擎的准确性和真实性。目前地瓜机器人的解决方案是提供一个云平台,这个平台能支持数据仿真生成。我们会生成一些数据帮客户做模型训练。
针对第二种方式,重点在于怎样实现数据闭环。需要我们能够有效抓到模型的bad case(模型与预期不符的案例),然后进行针对训练。这就是解决前期数据不够多,通过后续持续学习增强机器人智能的一种方式。我们目前在平台里是在重点投入支持的。
Q:汽车智驾当下最新的技术方案是世界模型,机器人这边有没有类似的技术?您如何看待世界模型技术在机器人领域的应用?
胡春旭:地瓜机器人是从地平线孵化出来的团队,所以继承了很多汽车上的技术和Know-how。这些经验放在机器人行业看,我觉得都是有效的。具身机器人的技术演变逻辑与智驾之间有很多相似之处,但区别在于汽车的验证进度要比机器人要快。原因主要是汽车场景的数据获取成本比机器人低得多。
机器人未来的演进路径,可能也会类似汽车智驾L1-L5等级。目前汽车大概是在L2-L3之间,机器人可能相对滞后一点。假设机器人L5是真正的AGI,那L5的机器人会替代其他机器人吗?我们觉得不会,L2-L5机器人之间应该是并存的关系。可能区别是机器人的L4-L5是端到端、世界模型的方式驱动智能,L2-L3还是分段式。
回到RDK S100上来,我们的定位肯定不是一步到位。毕竟100TOPS级的算力,做不到端到端大模型的算力支持。我们现在的定位,更多是为了解决机器人L2-L3分段式模型的技术路径。
Q:参考汽车智驾分类体系,机器人不同等级应该有什么样的能力,分别对应多少算力配置?
胡春旭:我个人判断的话,类比汽车L2+需要400TOPS、L3需要1000TOPS算力,机器人需要的算力分级可能会比汽车的需求高50%-100%。类比汽车L2+,机器人可能需要600-800TOPS算力。这是因为机器人AI面临的任务复杂度比汽车高得多。但算力也不是越大越好,因为算法和模型的效率也相当重要。所以并不能完全说800TOPS算力支持的模型效率就比400TOPS高一倍。整体看来,我认为机器人L1-L5之间对应的算力大概会有一个相对值,但具体是多少,现在其实没有形成共识。
Q:如果要让机器人去汽车工厂上班,这个场景需要配置多少算力?
胡春旭:面向一个具体场景,机器人需要多少算力,这与场景应用需求相关。在汽车领域,人形机器人主要干的是检测、装配任务。这些任务需要机器人通过视觉感知来控制身体完成动作。从技术层面看,需要的算力可能不会特别高。大概200-300TOPS就够了。
Q:是什么原因导致现在机器人在工厂的表现差强人意?
胡春旭:软硬件的问题都有,这是一个综合评估的问题。工厂应用的核心要求是效率,很多机器人的感知和算法已经比较ok了,但投入产出比还不够高。举个例子,人类员工每小时能产出1000个工件,每天工作8小时。机器人一小时可能只能产出200-300个,就算24小时连轴转,全天也不过是600-900个。在此基础上,工厂还要考虑机器人的购买成本。综合算下来,机器人现在的效率达不到跟人类一致。这里面不只是感知、算法、模型的问题,很多情况下其实是软件、硬件、业务,甚至与产线环境都有关系。
Q:行业内一直有一种说法,机器人和智驾技术的关联性很高。当下的智驾正在接近消费者满意的阶段了,机器人跟智驾相比还差多远?地瓜机器人怎样促进消费者对机器人技术满意?
胡春旭:还是要从业务场景来看。汽车智驾是一个任务非常明确的场景,所有人都知道智驾应该做什么。但机器人面对一个物体,很难说一定要去做什么,可能只有扫地机会有明确的任务。
跟汽车相比,机器人最大挑战是场景碎片化。这不仅指的是任务场景种类的差别,产品形态上也是如此。机器人形态多种多样,汽车大多是四个轮子的。消费者逐渐开始接纳智驾,是智驾技术和市场相对成熟的结果。但机器人这边,技术、市场、社会接受度都相当不成熟。如果人形机器人也能像智驾一样大规模出现在市面上的话,可能需要十年或以上的时间。
所以地瓜机器人的生态建设目标是支持整个机器人行业发展。不只是人形机器人,所有机器人方向都要支持。我们希望为更多开发者提供算力硬件和标准化的开发平台,实现各种类型的机器人创意。在社区持续迭代之后,可能地瓜机器人会有上百万的开发者、上千万的开源项目。那时候,不管做任何机器人都能从地瓜机器人生态里汲取营养。
Q:要想让机器人跑马拉松或者自动格斗,大概需要多少算力?需要我们的技术平台提供什么样的支撑?
胡春旭:其实现在的马拉松和格斗,背后都是人在遥控,不需要多大的算力。要变成全自动化,马拉松需要视觉感知路面情况,同时协调身体的运动部分来奔跑。格斗的话,就是快速抓住对方动作,预判这些动作的影响,然后再保护自己和出招。我觉得需要的算力会比工厂场景高一些,大概300-500TOPS应该是够的。
其中最消耗算力的部分在感知层面。从行业看,100TOPS算力跑的模型大概参数量是1.5到7B级别。有300TOPS算力的话,就能跑十几B的模型,感知部分就算是差不多了。对应马拉松和格斗场景,我们认为需要提供10-20B的感知模型能力。
谈商业,让所有人知道做机器人就用地瓜机器人
Q:为什么具身智能一下子成了科技公司积极下注的赛道?汽车产业链公司、互联网公司、消费电子,还有专门做机器人的四类公司,都达成重投入的共识?地瓜机器人作为汽车产业链出身的玩家,汽车行业背景带来哪些优势?
胡春旭:我觉得参与具身机器人发展的公司可能不止这四类。一些更传统的行业玩家也在大规模投入做机器人。
行业的迅速发展,我认为是大模型带来的颠覆。之前机器人一直没有翻越智能化的大山,但大模型打破了这道门槛。后面各种玩家发现,可以从不同角度参与机器人产品。人形可能是通用的形态,但一定不是唯一的形态。机器人是一个足够大的产业,它能容纳不同产业背景的公司参与并找到自己的定位。
例如互联网公司能与其他公司合作,充分发挥自己的云端和营销优势。消费电子类公司可以快速迭代硬件产品,甚至推出低成本产品出海。过去没有任何一个产业链的体量能与具身产业链相比较。相比汽车、手机,机器人可能是一个十倍、百倍,甚至千倍的大市场。
汽车产业链的公司做机器人,有优势,也有限制。优势的部分,是汽车产业链相对成熟。由于汽车领域的不少技术与机器人类似,它可以帮你决策产品和市场策略。例如地瓜机器人跟地平线的合作,BPU同时应用于汽车和机器人大脑,节省了很多投入。限制就是从汽车到机器人,要经历技术升维过程。机器人的需求更复杂,这是地瓜机器人面临最大的挑战。
Q:面对不同行业背景的客户,地瓜机器人怎么去满足这些不同视角下的需求?
胡春旭:我们做RDK S100的时候,先找了大约50家不同形态机器人公司了解共性需求。这些反馈合并到一起,就是现在的大小脑和平台化。
按照我们判断,机器人在未来三年内有机会在一些场景下突破。可能是四足、机械臂、轮足或者物流车。这些场景的算力需求不高,RDK S100的100TOPS级别足够了。这是我们基于算力供给的卡位。另一方面,是我们发现市面上的平台基本不能同时提供“算”和“控”的能力。我们把CPU、BPU、MCU集成到一个SoC中,就能很好解决技术架构的需求。
我们通过调研还发现,很多机器人公司是初创类的中小型公司。这些公司不仅缺技术,还会缺资金、营销、人才等各类资源,我们的生态就能及时提供支持。地瓜机器人会给企业定向推送人才、对接资本合作、提供产品优惠等支持,帮助他们快速落地产品。
Q:地瓜机器人的商业化路径会复制地平线吗?
胡春旭:地瓜机器人与地平线的定位类似。地平线是做智驾底座,它有芯片也有自动驾驶的方案,地瓜机器人也有SoC和开发平台。地瓜机器人和地平线的区别在于两个行业生态上。汽车更偏产业链,机器人更偏向于开发者。机器人的生态更开放,里面涵盖了小学生到大学生。所以生态运营策略层面上讲,地瓜机器人跟地平线的差异非常大。
Q:地瓜机器人的商业化过程都碰上了哪些问题,又是怎么解决的?
胡春旭:其实还是机器人片化开发的问题。很多企业、学生想做机器人,但他们其实并不清楚机器人能做什么。地瓜机器人能做的就是做好Infra(基础设施)的角色,支撑他们快速找到自己的方向。
在产品侧,我们根据不同机器人算力需求卡位了4-5款产品。运营层面,我们对开发者做了一个金字塔画像区分。针对人数最多的基础开发者,我们重点培育认知。中间部分是创客或KOL,我们会主张一些合作,释放优质项目和内容。再往上是初创公司,他们的目标会相对明确。地瓜机器人会根据市场的判断,为他们提供建议和资源。
总之地瓜机器人的运营目标非常明确,就是让所有人知道,做机器人就用地瓜机器人。地瓜机器人除了不做整机以外,一切工具都有。
谈地瓜机器人,“不变”应对行业太多的“变”
Q:地瓜机器人一直态度明确地不做整机,为什么会定下这样的战略方向?
胡春旭:因为对机器人行业足够相信和认可。机器人是一个非常庞大的行业,它可能有万亿甚至千万亿的体量。想做出面向千行百业的机器人,需要一个尽量标准化的底座。这部分的市场已经足够大了,足以诞生一个比英伟达更伟大的公司。所以我们当下的战略是扩大合作,与行业一起把市场做大。地瓜机器人把整机以外的,底层SoC、开发套件、算法、云平台等方向做好。
Q:地瓜机器人独立运营之后有哪些感触?
胡春旭:之前地瓜机器人在地平线内部是个做AIoT的事业部。当时有很多业务,现在聚焦在机器人。最大的感叹是行业变革得实在太快了,焦虑感也比以前强。以前还会有人帮你托底,现在只能自己加速成长。我们团队一直在保持学习,每天都在跟随行业迭代新的技术和模型,从中判断未来的技术是否符合我们的预期。我们需要打造一些不变的东西,来对应这个行业大量的“变”。
Q:如果用地平线的成功路径去看地瓜机器人,地瓜机器人当前处在什么位置?您预计搭载地瓜机器人的爆款产品多久能出现?
胡春旭:按时期对比的话,地瓜机器人肯定不是在地平线与长安合作之前。地瓜机器人目前已经积累很多产品和客户了。起码在传统的扫地机这块,地瓜机器人相对站得比较稳了。很多最新的高端机型,都使用了地瓜机器人的芯片。在出现爆款之前,地瓜机器人要做的还是不断深入探索。
爆款预测的话,我认为可能是新形态机器人。具身的技术、市场和需求还不太成熟。而大部分新形态机器人已经有了不少明确的落地场景。我们从生态中看到,已经陆续有玩家在用我们的芯片做产品验证了。
Q:这地瓜机器人是否也会参与整合供应链?
胡春旭:做生态的工作中,供应链是很重要的一环。
地瓜机器人的生态里有很多角色。比如说做传感器或执行器等机器人零部件的合作伙伴,有ToB或者ToC的整机厂商,还有做解决方案的。当地瓜机器人发现一家初创公司的产品定义很好时,就能根据生态提供支持。其中包括技术支持,例如帮助模型和语音交互调优,也会帮忙对接合作伙伴供应硬件。
Q:您预计机器人行业多久爆发?对应地瓜机器人产品的出货量能达到多少?
胡春旭:三年之内,新形态机器人会在一些场景爆发。三到五年之间,可能会有一些具身机器人平稳落地。5-10年内,具身机器人会从Demo阶段走向真正的商业化。十年之后,人形通用机器人可能具备AGI水准,这些机器人可能会在未来10-15年之间出现。如果在这段时间再次出现“ChatGPT时刻”,那节奏还会加快。
地瓜RDK产品线明年预计出货量至少会翻一倍。如果要定一个爆发指标的话,应该是某个场景做到一年50万的出货量。