“具身智能是否新瓶装旧酒?”
南粤时讯(编辑/孙琳 通讯员/李冠彬 陈小军 谭双翼 王甜甜) 具身智能通过多种类型的智能体在真实物理环境中执行任务,实现了人工智能进化,具备自感知、自认知、自决策、自执行和自学习等特性,被视为AI发展的下一波浪潮,同时,具身智能研究的兴起也代表着人工智能发展的一个新的里程碑,预示着我们即将进入一个“知行合一”的新时代。在这个时代,智能将不再局限于冰冷的算法和数据,而是现实世界紧密交织、共生共进。然而具身智能的演进过程中也形成了由AI专家推崇的“智能+具身”和以机器人专家主导的“具身+智能”两种派系,不乏有质疑“具身智能是否新瓶装旧酒”的声音。前者认为其是AI算法套上机器人的形态,后者认为是机器人控制添加更强的智能算法。具身智能的技术革新如何,最佳形态几何,是否通往AGI的必由之路成为值得行业专家深入研讨的新话题。
由CCF主办的第二十一届中国计算机大会(CNCC 2024)于2024年10月24日至26日在浙江省东阳市横店镇圆明新园举行。10月24日下午,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州学术委员会在CNCC大会分会场举办了“具身智能是否新瓶装旧酒?”观点论坛。YOCSEF广州主席李冠彬(中山大学)与YOCSEF总部副主席陈小军(深圳大学)共同担任执行主席。论坛邀请中山大学教授,鹏城实验室具身智能研究所所长林倞、北京大学助理教授王鹤与中国科学院计算技术研究所研究员蒋树强担任引导发言嘉宾;智元新创技术有限公司研究院执行院长,具身业务部部长姚卯青、华南理工大学软件学院教授吴庆耀,YOCSEF 总部副主席,北京交通大学教授金一担任思辨嘉宾。
广东工业大学计算机学院院长李小平教授、副院长陈平华教授、YOCSEF总部副主席陈小军(深圳大学)、金一(北京交通大学), YOCSEF广州往届主席谭台哲(广东工业大学)、黄书强(暨南大学)、黄栋(华南农业大学),现任主席李冠彬(中山大学),现任学术秘书姜思羽(广东外语外贸大学), YOCSEF上海分论坛秘书长刘斐(擎朗智能),往届AC委员曾安(广东工业大学)以及来自全国多所高校及企事业单位共60多人参加了此次论坛。
论坛现场
首先,由论坛执行主席李冠彬主持论坛开场环节,介绍了出席论坛嘉宾和关于此次论坛的背景和意义。论坛共同执行主席陈小军介绍CCF YOCSEF文化与发展历程。
论坛引导发言环节邀请到的三位引导发言嘉宾分别作了题为“从多模态大模型到具身智能:前沿与展望”、“面向通用机器人的具身多模态大模型系统”、“浅谈具身智能中的具身机理与智能体现”的分享。
首先,中山大学林倞教授以“从多模态大模型到具身智能:前沿与展望”为主题,深入探讨了具身智能在多模态感知、任务规划与决策、虚实迁移等方面的前沿研究和未来发展方向。林教授分析了具身智能在环境主动感知、数据与仿真平台并行发展等关键挑战,重点介绍了多模态主动感知技术的进展,包括主动目标搜索、3D空间文本对齐和复杂场景的语义地图构建等。此外,他还介绍了基于大模型的具身任务规划和决策框架,以及具身智能体虚实迁移的研究进展,并展示了具身智能在复杂真实环境中的应用和探索。
中山大学林倞教授引导发言
随后,北京大学的王鹤助理教授以“面向通用机器人的具身多模态大模型系统”为主题,分享了其团队在推动通用机器人技术发展方面的前沿研究进展。他从应用与手段两个角度出发,分析了通用机器人如何通过自然的沟通交互代替繁琐代码操作,具备跨领域任务执行能力。尽管谷歌的Vision-Language-Action(VLA)模型和特斯拉的解决方案在泛化能力上尚有不足,其团队提出的D3RoMA则通过合成数据与sim2real技术进行数据扩展,显著提升了通用机器人在复杂环境中的适应性。此外,他们构建了超大规模数据集,使机器人能够在透明、高反光等复杂材料下完成精细灵巧手操作任务,为未来通用机器人的泛化能力提供了新的研究思路和实践路径。
北京大学王鹤助理教授引导发言
最后,中国科学院计算技术研究所蒋树强研究员以“具身智能中的具身机理与智能体现”为主题,深入介绍了具身智能的核心概念和特点。报告提到具身智能是通过智能体与环境互动而产生的智能形式,在真实环境中受到信息获取的限制和外部干扰的挑战。其本质在于多部件的相互作用,具有涉身性、情景性、自主性和交互性等特征。值得注意的是,类比于自然界生物,智能的发展应不局限于脑部,而是应思考如何通过整个身体实现。他还指出,具身智能涉及伦理、社会和法律等问题,为未来的发展提出了深刻的思考,强调具身智能需要在任务完成过程中展现更为本能化的行为,为具身智能的实践和应用提供了新的视角。
中国科学院计算技术研究所蒋树强研究员引导发言
引导发言之后,由两位论坛执行主席分别为三位引导发言嘉宾颁发感谢状,论坛进入思辨环节。思辨环节由论坛执行主席李冠彬与论坛共同执行主席陈小军主持。会场嘉宾围绕“具身智能,是机器人的’冷饭热炒’吗?”、“具身智能的技术路径:’具身智能‘vs’身具智能‘ ”和“具身智能是通往AGI的必由之路吗?”三个核心议题,展开激烈思辨。
思辨议题1:具身智能,是机器人的“冷饭热炒”吗?
在“具身智能,是机器人的‘冷饭热炒’吗?”议题讨论中,多位专家学者围绕具身智能在机器人领域的创新价值与未来应用前景展开了深入探讨。思辨嘉宾智元研究院姚卯青首先发言,他认为具身智能并非“新瓶装旧酒”,其为传统机器人注入了新的生命力,不仅是机器人的延续,更是一个崭新的方向,具有广阔的发展空间和应用前景。尽管该领域存在部分炒作成分,但仍值得深入探索,并应通过这种“炒作”使本领域工作获得公众的关注和支持,推动这一前沿科技走向应用实践。擎朗智能刘斐总监对此也表示赞同,他认为具身智能的出现为机器人行业带来了质的提升,使其从单纯的执行角色转向更加通用、自主且灵活的智能操作。刘斐指出,具身智能不仅仅是机器人技术加上大模型,而是赋予机器人更高的通用性和适应性,能够在多样化环境中独立完成任务。北京交通大学金一教授补充指出,具身智能的崛起得益于AI for Science和大模型的发展,赋予了机器人在智能导航、虚拟人等新兴领域的深度应用潜力。金一认为,具身智能在新的研究范式下实现了对传统机器人的超越,为机器人行业带来了跨越式的进步。
谭台哲则从技术传承的角度进行了反驳,他认为具身智能在某种程度上是“新瓶装旧酒”,即尽管具身智能的概念得到了新的方法和技术的支持,但其核心目标与早期智能的设想相似,都是通过不同技术手段来实现智能化。因此,他强调具身智能仍然是技术传承的延续,并提醒大家看到当前方法的局限性,以开放的态度迎接未来的技术突破。而北京大学王鹤助理教授则提出了新的观点。他指出,具身智能的发展路径应是“新瓶装新酒”的关系,“瓶”(硬件)和“酒”(算法)两者在共同演化中达成高度融合,逐步实现更高智能。他提到,现代机器人不仅在智能算法上不断提升,其“瓶”——机器人硬件本身也在不断优化,例如模拟真实触觉的新型触觉元件等的硬件模块引入,使得机器人能够更适应多样化任务的需求。
与会其他专家则从实际应用的角度看待具身智能的发展,他们认为无论“新瓶”或“旧酒”,关键在于具身智能是否能推动技术应用落地。许多与会专家指出具身智能有望在通用社会应用中实现更多突破,通过智能技术与身体控制的融合,逐步走向高度智能化的未来。另一方面,与会者一致认为具身智能在机器人技术的应用潜力巨大,两者互相协作,最终可以达到技术互补,呈现螺旋上升,但要实现这一愿景,仍需克服技术创新和场景应用中的诸多挑战。
与会嘉宾激烈思辨
思辨议题2:具身智能的技术路径:“具身智能”vs“身具智能”
在“具身智能的技术路径:‘具身智能’ vs ‘身具智能’”议题讨论中,与会者聚焦于“本体先行 vs 智能先行”以及“端到端架构 vs 模块化设计”两大核心问题,对具身智能技术的未来方向进行了深入剖析。华南理工大学吴庆耀教授率先发言,他指出具身智能与身具智能的区别在于前者更强调与环境的互动,属于灵活适应的“柔性智能”;而“身具智能”更偏向智能本体的应用,侧重升级传统设备,属于较为固定的“刚性智能”。吴庆耀教授认为,本体的设计应优先发展,以确保具身智能在多样环境下的稳定性。同时,他鼓励高校在端到端架构方面进行探索,尽管模块化设计可以解决部分问题,但长远来看端到端架构更具潜力。
广东工业大学谭台哲则提出了“智能先行”的观点,他认为具身智能的发展得益于大模型的突破,这些智能模型为机器人本体带来了新一轮的进步。同时,端到端设计尽管理想,但对资源投入要求高,模块化设计反而更具实际,尤其适用于科研资源相对有限的场景。这个观点得到部分与会专家的支持,他们认为当前模块化在实际应用中的落地更快,适合推动短期成果转化。华南农业大学黄栋副教授从自然界演化的角度为具身智能的路径选择提供了新的视角补充。他指出,生物界的本质是高度模块化的端到端,每一层都有独立的端到端特性,同时也共享模块化的共性。他建议可以借鉴自然界的分层设计,将具身智能的各模块逐步优化,以便在未来实现真正的端到端应用。
随后在讨论如何在本体和智能、端到端和模块化之间实现平衡时,北京大学的王鹤助理教授提出了一种折衷观点。他认为,“本体和智能应同步发展,端到端与模块化也可以并行探索”。他解释说,随着智能技术的发展,本体硬件的需求也会随之上升,而本体的进步又能进一步促进智能水平的提升。因此,模块化可以作为端到端的起点,模块积累的数据也能为未来的端到端架构提供重要支撑。这个观点得到了大多与会专家的赞同。中山大学的林倞教授总结道,端到端设计是具身智能的未来趋势,但目前在定义上尚不明确。他指出,当前的具身智能仍然需要软件适应硬件的约束,随着技术的成熟,端到端架构的实现或将成为具身智能发展的下一步。
在本次论坛中,与会专家达成共识,具身智能的发展路径需要根据不同应用场景逐步优化,模块化设计在当前阶段具有重要意义,但端到端架构是未来的理想目标。专家们一致认为,通过本体和智能的协同发展以及模块化和端到端架构的结合,具身智能将实现更高的自适应性,为推动具身智能在机器人和各领域的实际应用提供坚实基础。
思辨议题3:具身智能是通往AGI的必由之路吗?
在“具身智能是通往AGI的必由之路吗?”的议题讨论中,多位专家从不同角度探讨了具身智能与通用人工智能(AGI)的关系,为具身智能未来的发展提供了新的启示。思辨嘉宾北京交通大学金一教授首先指出,具身智能虽然是通往AGI的重要途径之一,但并非唯一,具身智能的泛化能力在于如何将底层逻辑应用于不同的机器本体,从而在实际操作中实现泛化。她提出具身智能的进化可能还需要与脑科学的研究联动,以提升其在复杂环境下的适应能力。对此,华南农业大学黄栋副教授提出了不同视角,他指出,具身智能的发展首先需要明确通用本体的定义以及最终目标。他解释说,如果目标是一个完成具体任务的“工具型”智能,应该采用最低成本完成任务;而如果目标是一个具有类似人类属性的“智能体”,其工具性要求就不再是优先考虑的问题。因此,不同应用目标将决定具身智能在AGI进程中扮演的角色。
对此,中山大学的林倞教授持有不同观点,认为具身智能未必是通往AGI的唯一路径。他指出,当前算法框架的局限性使得具身智能看起来是必经之路,但未来可能会有不同的技术框架出现,提供新的AGI途径。林倞建议当前的研究可以聚焦于应用场景的构建并在这些场景中逐步实现泛化,这样有望更有效地推动AGI的实际应用。
智元研究院姚卯青则从数据驱动的角度分析了具身智能与AGI的关系。他指出,具身智能在数据量方面仍然远远不及一个普通四岁儿童所接触的数据,这使得具身智能的泛化能力受限。而北京大学的王鹤助理教授进一步强调了数据在实现AGI中的重要性。他认为,AGI的核心不在于“全能”,而在于zero-shot和few-shot的泛化能力。然而,目前具身智能和语言模型的推理能力仍然受限于数据规模。王鹤指出,当前具身智能的发展缺乏中心化的数据平台,若能构建此平台集成更多数据集,有望为通用模型的形成奠定基础,从而接近AGI的目标。
与会专家一致认为,具身智能在AGI发展中具备重要潜力,但其是否为唯一路径仍需进一步探索。专家们呼吁通过多学科协作,以推动具身智能和AGI的共生发展,同时注重应对社会伦理等现实问题。通过不同技术途径的交叉创新,AGI的实现或将从具身智能中获得新的启示。
论坛主席为思辨嘉宾颁发感谢状
在思辨环节的最后,由两位论坛执行主席为思辨嘉宾颁发感谢状。
与会嘉宾合影
YOCSEF总部副主席兼本次论坛执行主席陈小军对论坛进行了总结。他感谢各位嘉宾带来的精彩报告,充分肯定了本次论坛的讨论成果,并指出具身智能作为热门话题,尽管吸引了广泛关注,但在定义和发展方向上仍存在诸多不确定性。陈小军充分肯定了本次论坛的讨论成果,并希望此次交流能够引发更多思考,最终将成果整理输出,为学术界提供新的启发,促进多方深入交流,共同探索具身智能的前景与潜力。
责任编辑/南粤君