#机器学习# 【科学家提出强化学习新方法,迈向决策的统一】
近日,新加坡#南洋理工大学# 的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多智能体场景。
日前,相关论文以《可配置镜像下降:迈向决策的统一》(Configurable Mirror Descent:Towards a Unification of Decision Making)为题发在 2024 国际机器学习大会(ICML,International Conference on Machine Learning)。
据介绍,#多智能体# 又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。
而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?
但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。
具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。
而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。
戳链接查看详情:科学家提出强化学习新方法,迈向决策的统一
近日,新加坡#南洋理工大学# 的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多智能体场景。
日前,相关论文以《可配置镜像下降:迈向决策的统一》(Configurable Mirror Descent:Towards a Unification of Decision Making)为题发在 2024 国际机器学习大会(ICML,International Conference on Machine Learning)。
据介绍,#多智能体# 又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。
而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?
但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。
具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。
而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。
戳链接查看详情:科学家提出强化学习新方法,迈向决策的统一