学术研究

浙大和杭电团队在Science Robotics发布重磅成果:像人一样“看”与“触”,一种策略解锁多项灵巧手操作神技

发布时间:2026-02-11文章来源:Science Robotics

人类的手之所以灵巧,不仅因为有复杂的骨骼肌肉系统,更因为大脑能完美地融合视觉和触觉。神经科学研究表明,人脑顶下小叶(Inferior Parietal Lobule, IPL)中的神经元负责整合这些多模态信息,让我们在行动前就建立了对动作的表达。 

受此启发,浙江大学科研团队与杭州电子科技大学的合作者们提出了一种全新的学习框架——“Visual-Tactile Pretraining and Online Multitask Learning”。 

该研究通过模仿人类的学习范式(观察与实践),让机器人仅通过单目RGB相机和低成本的二值触觉传感器,就掌握了包括转瓶盖、拧水龙头、滑动滑块等在内的多种复杂技能,并表现出了惊人的泛化能力和“类人”的操作特性。

论文链接:www.science.org/doi/10.1126/scirobotics.ady2869

01 挑战:灵巧操作的“维数诅咒”与“感知黑洞”

灵巧手操作一直是机器人领域的“皇冠明珠”,但也是著名的难题。

1. 高维动作空间:多指灵巧手拥有20多个自由度,协调它们就像在指挥一支交响乐队一样。 

2. 复杂的接触动力学:物体在手中的每一次微小滑动、滚动都涉及复杂的物理接触,极难建模。

3. 严重的感知遮挡:灵巧手在操作时,手指不可避免地会挡住相机视线,导致视觉信息缺失。   

以往的方法依赖昂贵的高精度传感器(如高分辨率触觉阵列、多视角相机等),或者依赖只能在仿真中获取的“上帝视角”状态信息,难以在现实世界的复杂场景中落地。

02 核心创新:植入机器大脑的顶下小叶“IPL Token”

为了解决上述难题,研究团队提出了一个分阶段的学习框架: 

第一阶段:视触觉表征预训练

机器人在这一阶段像婴儿一样,通过“观察”大量人类操作视频来学习。研究者设计了一种基于掩码自编码器的网络,并创新性地引入了一个类似人脑顶下小叶神经元的可学习的视觉和触觉融合的“IPL Token”。

第二阶段:在线多任务模仿学习 

有了强大的感知表征后,团队采用了一种在线迭代聚合专家策略的方法。该方法有效地解决了多任务学习中的“观测漂移”问题,让一个统一的神经网络能够同时掌握转瓶盖、滑滑块、重定向物体等多种技能。

03 硬核实测:从仿真到真机,数据会说话

基于该方法学习的策略,团队搭建了一套低成本感知(普通网络摄像头 + 自制压阻式触觉传感器)的实物灵巧手操作系统。 

一套策略,玩转多变任务 

不同于以往“一个任务训练一个模型”的定式,该研究仅训练了一个统一策略,即一个策略可完成转瓶盖、拧水龙头、滑滑块、桌面/手内重定向5项任务。 

强悍的泛化性:无惧未知物体

对于在训练中未见过的日常物体,包括形状奇特的水果、透明塑料瓶、金属把手等,甚至对于训练中从未见过的削铅笔、拧松螺丝和抽薯片内壳套等任务,该策略实现了惊人的零样本或少样本泛化。此外,在实验中视觉和触觉融合策略不仅表现为“更能做”,而且“做得更快”。

极致的鲁棒性:在黑暗与干扰中依然精准 

无惧光照变化:无论是在昏暗的侧光下,还是强光直射的过曝光环境下,凭借触觉信号的补充,机器人依然能精准感知接触状态,完成任务。 

传感器普适性:即使更换了不同分辨率、不同原理的触觉传感器(如不同密度的压阻阵列或气压传感器),策略无需重新训练即可适应。

视触觉融合填补“虚实鸿沟” 

仿真和真实物理视觉上的差异是在仿真训练下操作策略在实物部署中面临的重要难题。单模态策略从仿真迁移到真机中,成功率下跌20%以上,而视触觉融合(VT)策略只下降不到5%,证明了多感官融合具有跨越虚实鸿沟的强大潜力。 

“青出于蓝”:学生策略超越专家 

通常的蒸馏学习中,学生网络往往不如专家网络。但本研究发现,基于VT预训练的统一学生策略,其表现竟然超越了专家策略。这说明多任务联合训练让模型学到了相似操作的物理交互规律,实现了“触类旁通”。 

像人类一样“注视”关键区域 

为什么这套方法这么强?可视化的接触步态和注意力图揭示了答案。 

类人行为:统计分析发现,该策略产生的触觉接触模式与人类演示数据高度相似。这说明机器人不仅仅是在机械地执行命令,而是通过预训练,“领悟”了人类操作中细腻的时序与节奏。 

意图理解:学习到的“IPL Token”展示出了极强的可解释性。它能够自动忽略背景干扰,将注意力精准地聚焦在手部与物体接触的关键区域。

这项工作通过引入受脑启发和基于人类视频的预训练,机器人可以在不依赖昂贵硬件的情况下,获得通用的灵巧操作能力。这项技术为未来家用机器人、服务机器人的普及铺平了道路——也许在不久的将来,你的机器人保姆就能用它灵巧的双手,为你熟练地拧开罐头、整理桌面,甚至削好一支铅笔。


上一篇:下一篇: