)
“机器人如果“换了身体”,控制器还能继续有效工作吗?
在今天的具身智能系统中,答案往往是否定的。控制器依赖固定本体,经验难以迁移,身体参数稍有变化,就可能需要重新建模、重新训练、重新部署。
比如,一个仿生软体机器人手臂,今天拿锤子钉钉子,明天端着饮料给人倒水;换一套身体结构之后,还能写毛笔字、玩眼疾手快游戏。
听起来像是给软体机器人装上“通用遥控器”。但这件事真正难的地方不在动作本身,而在于:软体机器人一旦换材料、换长度、换组装方式,原来的控制器往往就不灵了。
如果说过去几年具身智能的核心命题是“让机器人学会更多任务”,那么接下来,一个同样重要的问题正在被提出:智能,能否摆脱对单一身体的依赖?
Nature Communications最新发表的一项研究,给出了一个值得关注的新答案。
近日,国防科技大学胡德文院士、徐昕教授、张兴龙副教授团队联合合肥工业大学李霄剑教授、莫杭杰副教授团队、纽卡斯尔大学潘为教授(智身科技CTO)、北京航空航天大学文力教授、慕尼黑工业大学Allois Knoll教授、南京大学邴振山教授等在Nature Communications发表了题为《Reinforcement learning in linear embedding space unlocks generalizable control across soft robot configurations》的研究。国防科技大学的张兴龙、徐昕、胡德文为论文的共同通讯作者。论文的合作作者还包括:国防科技大学的李聪、姜跃、曹文宇、蒋薇、杨一赫、杨跃能、卢惠民、曾令李等。
论文提出了一种线性嵌入空间驱动的强化学习方法(Linear Embedding Reinforcement Learning, LERL),让同一个基础策略能够在33种软体机器人构型之间快速迁移。简单说,它不是给每一种软体机器人重新写一套控制程序,而是先把复杂的软体机器人动力学,投影至一个全局线性Koopman嵌入空间里;之后只需要在这个空间里快速更新策略,就能适应新的身体。这不仅是软体机器人控制领域的一次突破,也为具身智能迈向真正的通用性提供了新的思路。
)
图 1|能够在多种构型和任务之间实现快速适应的通用控制系统。Koopman 嵌入映射 函数仅在一个固定构型上进行一次离线训练,而策略增益矩阵则通过 Koopman 嵌入空间中的无模型强化学习(RL)进行在线更新,以实现多构型自适应;b. I 型象鼻机器人(Elephant-trunk Robots);c. II 型软肌肉机器人(Soft-muscle Robots);d. III 型蠕虫机器人(Worm Robots)。
01.
为什么软体机器人“换个身体”就很难控制?
软体机器人的优势很明显:身体柔软、能变形、和人接触更安全,也更适合抓取脆弱物体、进入狭窄空间、完成柔顺操作。
但代价也很明显:它不像传统刚性机械臂那样,每个关节的位置和力矩都相对清楚。软体结构会弯、会扭、会拉伸,材料还会疲劳,气压、负载、刚度一变,动力学就跟着变。
这就造成一个尴尬局面:机器人本体很灵活,控制器却很“认身体”。
过去的办法大多是针对某一个构型建模、调参、设计控制器。换一个长度、换一种材料、换一种拼装方式,就可能要重新采数据、重新建模、重新训练。对于本来就容易磨损、实验成本高的软体机器人来说,这条路很难规模化。
强化学习看起来是一个好选择,它可以从试错中学策略。但传统强化学习又太“吃数据”,动辄需要海量交互,而且难以实现在线学习优化;而给软体机器人做高保真仿真器,也非常困难。
所以真正的问题变成了:
能不能让软体机器人像章鱼等生物一样,哪怕新长出来的触手和原来不完全一样,也能很快摸清如何实现高效控制?
02.
先学会共同规律,再快速适应新身体
该研究的核心方法叫LERL。它的关键不是直接在真实世界里从零开始学,而是先学一个“共同规律”。
这个共同规律,就是一个基础的Koopman线性嵌入空间。
软体机器人的真实动力学具备强非线性,但Koopman思想提供了一种绕路方式:把原始状态映射到更高维的嵌入空间里,在嵌入空间中进行在线高效策略测学。这样一来,原来很难在原空间实现的在线策略优化,就能在线性嵌入空间中在线快速学习和更新。
)
图 2|线性嵌入强化学习框架。a. 利用从单个蜂窝构型预先采集的输入—状态数据,对 Koopman 嵌入进行一次离线训练。b. 在该线性嵌入空间中,通过无模型强化学习进行在线策略学习,实现对具有不同材料、刚度、结构几何特征和装配模式的多种机器人构型的快速适应。
如果把每一种软体机器人都看成一门方言,那么LERL做的事情,就是先训练出一种“通用语法”。不同机器人构型当然还有差异,但这些差异可以在同一个线性空间里被快速修正,而不是每次都从零开始学。
03.
33种构型验证
为了证明这不是“只在一个机器人上好用”,该工作构建了三类软体机器人平台。
第一类是象鼻形蜂窝结构机器人,每一节有四个气动执行器,刚度可以通过蜂窝孔宽改变,长度也分短、中、长。
第二类是气动肌肉机器人,每节由三根并联气动肌肉组成。
第三类是蠕虫形机器人,使用PVC波纹管结构,可以通过吸气产生运动。
更重要的是,团队还把这些不同结构混合起来,做了串联、并联、混合装配。最后一共得到33种构型,材料、刚度、结构几何、组装方式都不一样。
)
图 3|用于验证的 33 种软体机器人构型:包括23 种象鼻机器人构型,3 种软肌肉机器人构型和3 种蠕虫机器人构型,4 种混合组装机器人构型。
该工作还设计了两种策略部署方式:一种是LERL,在预训练的嵌入空间从头学当前策略;另一种是LERL-transfer,连策略也从已有构型迁移过来,再用少量在线数据快速微调。
)
图 4|三类软体机器人原型在多种构型下的策略自适应性能。
结果很直接:在固定构型训练中,LERL相比已有Koopman控制方法减少了6.8倍训练样本;在跨构型策略迁移时,样本量减少了75倍。
具体而言,已有方法往往需要15万个样本级别的数据,而LERL-transfer在多种新构型上只需要2千条样本就能完成策略迁移,同时跟踪误差还更低。
除数据量之外,软体机器人要走向真实应用,还有一个绕不开的问题:鲁棒性。
实验里,LERL在不同负载下仍能实现目标点到达;蠕虫形机器人在高速条件下运动速度达到1.89 m/s、加速度达到22.34 m/s²;即使象鼻形机器人出现多个气囊损坏,在线学习仍能把误差逐步压下来。
)
图 5|学习能力与鲁棒性验证。a. 不同嵌入表示下象鼻机器人目标到达任务的在线学习能力。b. 不同嵌入结构下的控制性能比较。c. 不同负载条件下机器人末端位姿误差曲线。d. 不同气囊失效数量条件下的经验鲁棒性验证。e. 象鼻机器人执行蝴蝶结轨迹跟踪任务时四个学习回合的学习性能。f. 蠕虫机器人执行目标到达任务时四个学习回合的学习性能。g. 策略学习中积分作用的消融研究。
这也是LERL相对传统控制器最有意思的地方:它不是假设机器人永远完好、构型永远不变,而是允许机器人在变化和损坏中继续更新策略。
)
图 6|数据集特性与任务成功率的辅助性能评估。a. 不同数据集规模与组成下的迁移性能。b. 基于正弦和随机输入激励生成的数据集训练的前馈策略的任务性能。c. 象鼻机器人执行圆形轨迹跟踪任务时四个学习回合的学习性能。d. 不同训练数据量条件下的迁移性能比较。e. 在 3 mm 位置容差范围内敲击固定目标点任务的成功率比较。
此外,本文还系统评估了所提方法在不同数据集规模与组成、不同前馈策略、训练分布外目标、不同运动速度以及不同位置外部扰动等条件下的迁移性能与控制性能,并进一步验证了其在连续学习回合中的学习能力提升与性能演化特性。
)
图 7|辅助性能与鲁棒性评估。a. 训练空间内外目标位置上的任务性能比较。误差棒表示跟踪误差从最小值到最大值的变化范围。b. 不同加速度条件下圆形轨迹跟踪任务的性能。c. 在四个不同位置施加外部扰动时的跟踪误差曲线。
04.
软体机器人在现实任务中的表现
更有说服力的是,该工作没有只让机器人在实验台上画轨迹,而是直接把它们推向了一组真实任务。
)
图 8|LERL 赋能软体机器人完成复杂任务。a–c. 象鼻软体机器人通过钉钉子将两块木板固定连接:场景(a)、高亮轨迹(b)和任务快照(c)。d–f. 象鼻机器人在安全人机交互条件下自主递送饮品:场景(d)、高亮轨迹(e)和任务快照(f)。g–i. 混合组装机器人执行毛笔书法书写任务:场景(g)、高亮轨迹(h)和任务快照(i)。j–l. 蠕虫机器人模仿人类完成快速手眼反应游戏:场景(j)、高亮轨迹(k)和任务快照(l)。
任务一:木工钉木板。
象鼻软体机器人抓住一把370克的锤子,把钉子敲进木板。这个任务需要高负载、高速度和毫米级落点精度。实验中,机器人完成双侧敲击,总任务耗时72秒,末端最高速度达到0.78 m/s。在共计10次的3毫米容差敲击测试里,LERL成功9次,已有对照方法成功4次。
任务二:吧台饮料服务。
机器人先和人交互碰拳,再抓瓶子、倒饮料、把空瓶丢进垃圾桶,最后把杯子递给人。这个任务看上去轻松,其实要求运动平滑、姿态稳定,还要在和人接触时保持安全。
任务三:软体毛笔书法。
串并联混合装配的软体机器人写毛笔书法。毛笔字难在压力、速度、角度都要稳定,太低会糊,太高会断,速度不均还会变形。LERL让混合软体机器人完成了清晰的笔画跟踪。
任务四:眼疾手快游戏。
蠕虫形机器人要根据小棒位置信号判断哪根小棒掉落,并在100毫秒内移动末端网兜接住。实验中,机器人速度最高达到1 m/s,并成功拦截掉落的小棒。
这几件事放在一起看,就能理解这篇工作的核心:它不是只想让软体机器人在实验台上画一个圆,而是让同一套控制思想迁移到不同身体、不同任务、不同动态条件里。
05.
未来与结语
这项工作的核心贡献,可以概括成一句话:把软体机器人的“身体可重构”和“控制可迁移”连接在一起。
过去,软体机器人的身体很灵活,但控制策略往往不够灵活;现在,LERL试图让控制器也具备类似身体的适应性。先把不同构型共有的动力学特征编码进一个线性嵌入空间,再用少量在线数据快速修正差异。
这让软体机器人从“每换一次身体就重学一次”,迈向“带着已有经验快速适应新身体”。
如果把未来的软体机器人想象成一套可拼装、可换节、可变刚度的机器系统,那么它们需要的不是一堆彼此孤立的控制器,而是一种能随着身体变化继续工作的通用控制范式。
论文作者介绍:张兴龙,国防科技大学智能科学学院副教授,博士生导师,意大利米兰理工大学博士。研究方向包括:机器人强化学习与预测控制、Koopman嵌入驱动的学习控制等。以第一/通讯作者在Nature Communications, IEEE Trans. Robotics, Automatica等权威期刊发表/录用学术论文20余篇,授权国家发明专利17项。
论文信息:Xinglong Zhang, Cong Li, Hangjie Mo, et al. Reinforcement learning in linear embedding space unlocks generalizable control across soft robot configurations[J]. Nature Communications, 2026.