English 日本語 Русский

多智能体强化学习样本效率提升方法

多智能体强化学习样本效率提升方法

客??????户

北京航空航天大学

关??键?词

多智能体强化学习层次对称性样本效率无人车集群

被捕捉物

无人车集群

北京航空航天大学吴文峻老师、罗杰老师团队在 ECAI 2024 上以“Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning”为题发表关于多智能体强化学习中引入层次对称性的论文。该论文提出层次等变策略网络（HEPN）方法，通过利用层次对称性来提升多智能体强化学习算法的样本效率。

k8一触即发的人生赢家kf凯发动作捕捉系统用于获取实时环境状态数据（无人车集群位姿数据），验证了本文算法的性能。

引用格式

Tian, Yongkai, et al. "Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning." ECAI 2024. IOS Press, 2024. 2202-2209.

研究背景

实现高样本效率是强化学习中的一个关键研究领域。在多智能体强化学习（MARL）中，由于联合状态和动作空间的容量随着智能体数量的增加呈指数级增长，这一问题变得极为困难。将对称性引入多智能体强化学习（MARL）是解决这一问题的有效方法。然而，层次对称性的概念——即在多智能体系统（MAS）的不同层级上保持对称性——尚未在现有方法中得到探索。

本文贡献

聚焦多智能体协作任务，本文提出了

1. 利用 MAS 中层次对称性来提高 MARL 算法样本效率的 HEPN方法。HEPN 被设计用来探索和学习 MAS 的层次结构，同时确保严格的对称性属性。

2. 旨在更好地挖掘 MAS 中层次结构的分区损失；

3. 在多个多智能体协作任务中评估了 HEPN 的性能。实验结果表明，HEPN 的收敛速度更快，收敛奖励更高，从而证明了其有效性；

4. 在物理多机器人环境中部署了 HEPN，证实了其在现实世界中的有效性。

?

图1 本文提出的 HEPN 的整体框架，包含三个主要？：1）等变聚类？椋糜谔崛《嘀悄芴逑低持械牟愦谓峁，将具有相似性的智能体聚类成组，作为高层系统中的智能体；2）等变重映射？，用于将高层系统中的信息重映射回低层系统；3）动作？，用于生成最终的动作输出。

仿真实验

本文将对称性先验（ESP）、多层感知机（MLP，具体为MAPPO）、图神经网络（GraphSAGE）和基于图的协调策略（GCS）作为基线方法，与本文提出的HEPN方法在不同任务、不同智能体数量等方面进行比较。结果表明，本文方法的收敛速度、收敛奖励和收敛效率优于现有技术，并表现出更高的稳定性，以及处理大规模复杂任务的有效性。同时，通过消融实验证明了层次结构的引入在多智能体系统中的复杂任务中有很大帮助，而等变性的考虑显著提升了算法性能。

?

图2 展示了 HEPN、MLP、GraphSAGE、ESP 和 GCS 在三个任务上的学习曲线。每个实验均采用不同的随机种子重复五次，以确保结果的可靠性。

?

表1 显示了不同数量智能体对不同任务的影响，通过模型的平均收敛奖励来表达

现实实验

本文通过Sim2Real的方法评估了算法的性能。将训练好的模型部署到现实环境，使用机器人作为任务智能体，并通过ROS进行控制，再通过k8一触即发的人生赢家 kf凯发动作捕捉系统提供无人车位姿数据，以获取实时环境状态。

会和、追捕和资源收集三个任务现实实验展示

为了准确评估算法在现实环境中的性能，本文将 HEPN 与每个任务中表现最佳的基线算法进行比较。结果表明，本文方法能够更快地完成任务，从而证明了 HEPN 在现实场景中的有效性。

k8一触即发的人生赢家kf凯发动作捕捉系统用于获取实时环境状态数据（无人车集群位姿数据），验证了本文算法HEPN 在现实实验中的有效性

作者信息

田雍恺，北京航空航天大学计算机学院，博士研究生。主要研究方向：多智能体强化学习、知识内嵌强化学习

于鑫，北京航空航天大学计算机学院，博士研究生。主要研究方向：多智能体强化学习、大模型。

齐逸容，北京航空航天大学计算机学院，硕士研究生。主要研究方向：多智能体强化学习

王力，北京航空航天大学人工智能学院，博士研究生。主要研究方向：多智能体强化学习，大模型推理。

冯埔，北京航空航天大学计算机学院，博士研究生。主要研究方向:多智能体

强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。

吴文峻，北京航空航天大学人工智能学院教授、博士生导师。主要研究方向：群体智能与多智能体系统、认知建模与智能导学、智能软件工程等。

石荣晔，北京航空航天大学人工智能学院副教授、博士生导师。主要研究方向：领域知识内嵌人工智能算法在物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。

罗杰，北京航空航天大学计算机学院副教授、博士生导师。主要研究方向：软件版本演化理论、知识图谱表示与推理、群体智能kf凯发理论与汇聚方法等。

IEEE RAL 足式机器人鲁棒状态估计精度较基线提升40%以上

山东大学研究团队发表面向绳驱动连续体机器人的融合非线性扩展状态观测器的自适应滑模跟踪控制方法，kf凯发动捕为实验提供机器人末端执行器位姿数据，助力验证控制方法有效性。

室外环境无人车动作捕捉

清华大学李翔老师团队在室外环境下对无人车进行动作捕捉。k8一触即发的人生赢家kf凯发抗日光版本动捕镜头过滤日光干扰，准确识别无人车表面的反光标记点，获取高精度运动轨迹。

IJRR | 北航团队提出机器人复合分层抗干扰框架：实现无人机边飞边学

北航杭研院郭克信老师团队在IJRR上发表FORESEER机器人复合分层抗干扰框架，研究在五种不同构型的无人机平台上进行了室内外大量实验，通过四类代表性任务系统验证框架的性能。 k8一触即发的人生赢家kf凯发动作捕捉系统为实验提供了无人机在室内执行飞行任务时的高精度位姿数据及轨迹信息，助力验证FORESEER框架处理各种不确定性的有效性。

IROS 2025浙大高飞老师团队 | FLOAT Drone：一种可用于近距离操作的共轴全驱动无人机

浙江大学高飞老师团队设计并验证其创新的FLOAT Drone全驱动同轴无人机并发表于IROS 2025。该无人机首次集成控制面，结合同轴双旋翼设计，实现了低气流干扰的紧凑型平台，可完成倾斜悬停浇花、穿越狭窄缝隙、近距离推拉窗帘等精细任务。k8一触即发的人生赢家kf凯发动作捕捉系统为该无人机动力学建模、双模态控制器验证及高精度轨迹/姿态跟踪提供关键的位姿真值数据。

K8·凯发中国一触即发

info@nokov.com

应用领域

机器人无人机 - 无人机、集群和移动机器人 - 机械臂 - 外骨骼 & 可穿戴设备 - 仿生机器人 - 机械手 - 海洋与水下应用 - 医疗机器人 - 位移测量虚拟现实运动康复传媒娱乐

产品

动作捕捉相机

- Mars系列 - 水下动作捕捉相机 - Pluto系列 - Orbit系列 - Mars Hybrid系列动作捕捉软件动作捕捉系统配件 VRT动作捕捉系统套装 AI无标记动作捕捉套件

机器人开发平台

- Crazyflie & Crazyswarm - 多智能体集群编队实验平台

开发者工具

- 多模态数据捕获管理

集成第三方产品

- 查看全部集成产品

技术支持

常见问题技术资讯动作捕捉工作室

资源

经典案例相关论文

关于凯发com

新闻动态联系凯发com

Copyright 2015-2024 Beijing k8一触即发的人生赢家 Science & Technology Co., Ltd. All Rights Reserved.
北京kf凯发科技有限公司版权所有京ICP备15051443-1号

用户须知

English 日本語 Русский

联系凯发com

如需更多应用、案例信息或产品报价，请致电 K8·凯发中国一触即发，或在下方留言：

机器人/无人机 VR/AR/XR 运动康复传媒娱乐

提交

北京kf凯发科技有限公司（总部）

北京市朝阳区安慧里四区15号五矿大厦8层820室

info@nokov.com

K8·凯发中国一触即发

提交成功!请您耐心等待!

欢迎关注公众号，获取更多信息

关闭

网站地图XML