#机器学习# 【科学家提出强化学习新方法，迈向决策的统一】近日，-20240731153719

2024-07-31 15:37
本条微博链接

#机器学习# 【科学家提出强化学习新方法，迈向决策的统一】

近日，新加坡#南洋理工大学# 的研究人员提出一款名为“可配置镜像梯度下降”（CMD，configurable mirror descent）的算法，并将其用于多智能体场景。

日前，相关论文以《可配置镜像下降:迈向决策的统一》（Configurable Mirror Descent:Towards a Unification of Decision Making）为题发在 2024 国际机器学习大会（ICML，International Conference on Machine Learning）。

据介绍，#多智能体# 又分为合作、竞争、以及既有合作又有竞争等三类场景，每个场景都有自己的算法。学界的研究之间也有重合，但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题：有没有可能用一个算法做所有的决策任务？

但在当时，他们并没有合适的解决思路。最近一两年，领域内的一些新成果给他们带来了一些灵感。

具体来说：基于策略梯度的强化学习算法（PPO，Proximal Policy Optimization），在单智能体上已经得到广泛广泛。

而在合作多智能体上，人们主要使用“多智能体的基于策略梯度的强化学习算法”（MAPPO，Multi-Agent PPO）和“单智能体的基于策略梯度的强化学习算法”（IPPO，Independent PPO）。

戳链接查看详情：

科学家提出强化学习新方法，迈向决策的统一