Py学习  »  机器学习算法

#机器学习# 【科学家提出强化学习新方法,迈向决策的统一】近日,-20240731153719

麻省理工科技评论 • 4 月前 • 418 次点击  

2024-07-31 15:37

#机器学习# 【科学家提出强化学习新方法,迈向决策的统一】

近日,新加坡#南洋理工大学# 的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多智能体场景。

日前,相关论文以《可配置镜像下降:迈向决策的统一》(Configurable Mirror Descent:Towards a Unification of Decision Making)为题发在 2024 国际机器学习大会(ICML,International Conference on Machine Learning)。

据介绍,#多智能体# 又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?

但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。

具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。

而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。

戳链接查看详情:科学家提出强化学习新方法,迈向决策的统一
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172784
 
418 次点击