超越ChatGPT的AI智能体，82页ppt

本文档由哥伦比亚大学周瑜（Zhou (Jo) Yu）及Arklex AI团队撰写，系统探讨了AI智能体（AI Agents）的演进、关键技术与未来发展方向。主要内容涵盖以下三大部分：

1. 基于大语言模型（LLM）的自我改进技术

研究提出了一种名为TriPoST的方法，通过交互式轨迹编辑、数据后处理与加权监督微调（SFT），使小型语言模型（如LLaMA）能够从LLM生成的反馈中学习自我改进能力。实验表明，TriPoST在复杂任务（如多步算术、逻辑推理）中显著提升了模型性能，且无需人工监督即可实现模型优化。例如，在Big Bench Hard基准测试中，TriPoST迭代优化后的模型在未见任务上的准确率提升显著（如多步算术任务从16.8%提升至22.5%）。

2. 树搜索增强模型能力

针对对话决策等任务，团队提出基于蒙特卡洛树搜索（MCTS）的开放环规划方法（如GDP-Zero），利用LLM模拟用户行为与价值评估，优化对话策略。在说服任务（PersuasionForGood数据集）中，该方法相比ChatGPT在捐赠概率（0.79 vs. 0.73）和说服力评分（4.38 vs. 4.10）上表现更优，展现了树搜索在动态任务中的有效性。

3. AI智能体的训练与部署框架

团队开发的Arklex框架以“智能体优先”为核心，支持混合控制、任务模块化分解、人类干预与持续学习。相比传统框架（如DialogFlow、LangChain），Arklex在开放性、控制灵活性与任务组合能力上更具优势。此外，团队提出R-MCTS（带对比性自反思的树搜索）与探索式学习方法，显著提升了视觉-网页交互任务（如VisualWebArena）的成功率，并实现搜索知识向模型的迁移。

核心贡献与展望

技术突破：通过交互式数据与树搜索，突破小模型自我改进的局限性，实现无监督性能提升。
框架创新：Arklex为复杂AI智能体系统提供可扩展、可控的解决方案。
未来方向：探索强化学习与模型预测控制（MPC），减少对树搜索的依赖，优化环境交互效率。

专知便捷查看，访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/92112ae0b44f03f5a79b9900433e6407

点击“阅读原文”，查看下载本文