社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

#机器学习# 【科学家提出强化学习新方法,迈向决策的统一】近日,-20240731153719

麻省理工科技评论 • 8 月前 • 496 次点击  

2024-07-31 15:37

#机器学习# 【科学家提出强化学习新方法,迈向决策的统一】

近日,新加坡#南洋理工大学# 的研究人员提出一款名为“可配置镜像梯度下降”(CMD,configurable mirror descent)的算法,并将其用于多智能体场景。

日前,相关论文以《可配置镜像下降:迈向决策的统一》(Configurable Mirror Descent:Towards a Unification of Decision Making)为题发在 2024 国际机器学习大会(ICML,International Conference on Machine Learning)。

据介绍,#多智能体# 又分为合作、竞争、以及既有合作又有竞争等三类场景,每个场景都有自己的算法。学界的研究之间也有重合,但是彼此之间的交流相对较少。

而本次研究起源于几年前课题组闲聊时谈到的一个问题:有没有可能用一个算法做所有的决策任务?

但在当时,他们并没有合适的解决思路。最近一两年,领域内的一些新成果给他们带来了一些灵感。

具体来说:基于策略梯度的强化学习算法(PPO,Proximal Policy Optimization),在单智能体上已经得到广泛广泛。

而在合作多智能体上,人们主要使用“多智能体的基于策略梯度的强化学习算法”(MAPPO,Multi-Agent PPO)和“单智能体的基于策略梯度的强化学习算法”(IPPO,Independent PPO)。

戳链接查看详情:科学家提出强化学习新方法,迈向决策的统一
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172784
 
496 次点击