Py学习  »  chatgpt

超越ChatGPT的AI智能体,82页ppt

专知 • 5 天前 • 51 次点击  


本文档由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。主要内容涵盖以下三大部分:

1. 基于大语言模型(LLM)的自我改进技术

研究提出了一种名为TriPoST的方法,通过交互式轨迹编辑、数据后处理与加权监督微调(SFT),使小型语言模型(如LLaMA)能够从LLM生成的反馈中学习自我改进能力。实验表明,TriPoST在复杂任务(如多步算术、逻辑推理)中显著提升了模型性能,且无需人工监督即可实现模型优化。例如,在Big Bench Hard基准测试中,TriPoST迭代优化后的模型在未见任务上的准确率提升显著(如多步算术任务从16.8%提升至22.5%)。

2. 树搜索增强模型能力

针对对话决策等任务,团队提出基于蒙特卡洛树搜索(MCTS)的开放环规划方法(如GDP-Zero),利用LLM模拟用户行为与价值评估,优化对话策略。在说服任务(PersuasionForGood数据集)中,该方法相比ChatGPT在捐赠概率(0.79 vs. 0.73)和说服力评分(4.38 vs. 4.10)上表现更优,展现了树搜索在动态任务中的有效性。

3. AI智能体的训练与部署框架

团队开发的Arklex框架以“智能体优先”为核心,支持混合控制、任务模块化分解、人类干预与持续学习。相比传统框架(如DialogFlow、LangChain),Arklex在开放性、控制灵活性与任务组合能力上更具优势。此外,团队提出R-MCTS(带对比性自反思的树搜索)与探索式学习方法,显著提升了视觉-网页交互任务(如VisualWebArena)的成功率,并实现搜索知识向模型的迁移。

核心贡献与展望

  • 技术突破:通过交互式数据与树搜索,突破小模型自我改进的局限性,实现无监督性能提升。
  • 框架创新:Arklex为复杂AI智能体系统提供可扩展、可控的解决方案。
  • 未来方向:探索强化学习与模型预测控制(MPC),减少对树搜索的依赖,优化环境交互效率。


专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/92112ae0b44f03f5a79b9900433e6407

图片

点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179143
 
51 次点击