IEEE Transactions on Robotics三维感知-复杂操作端到端机器人学习新方法

中国科学深圳先进技术研究院等信源发布 2025-03-26 10:44





中国科学院深圳先进技术研究院与澳门大学合作，提出了一种基于三维视觉融合注意力机制的端到端多模态模型——Fusion-Perception-to-Action Transformer (FP2AT)。该算法通过融合全局与局部体素网格特征，并结合本体感知信息，显著提升了机器人在复杂三维场景中的精细操作能力。研究团队设计了全局-局部视觉融合注意力（HVFA-3D）和三维视觉互注意力机制（VMA-3D），模拟人类“先全局观察、再局部聚焦”的视觉感知模式，增强对关键操作区域的关注。此外，FP2AT还集成了关节力位、末端力/力矩、夹爪状态数据，提升机器人对周围环境接触、本体运动和协调的感知能力。渐进式动作预测框架通过低分辨率体素全局规划和高分辨率局部体素微调动作，保持网络端到端特性的同时提高预测精度。研究成果发表于《IEEE Transactions on Robotics》。