OpenAI ChatGPT o1 背后的关键技术Test-time Compute Scaling,Huggingface实现并开源了!通过给模型更多“思考时间”,LLaMA 1B 在数学方面的表现优于 LLaMA 8B,击败了同等大小的模型8x 。#ai创造营##ai#
Hugging Face 团队发布了一篇关于“开放模型中的推理阶段计算扩展”(Test-time Compute Scaling) 的研究文章,非常硬核!
该文章探索如何在推理阶段通过动态计算策略提升小型语言模型的性能,使其在困难任务上媲美甚至超越大型模型。
★ 背景与挑战
目前,语言模型的训练阶段计算规模主导了性能提升,但随着模型规模和训练资源的快速增长,预训练成本正变得难以负担。因此,推理阶段计算扩展(Test-time Compute Scaling) 成为一种具有前景的替代方案,通过动态分配计算资源,让模型在解决困难问题时“思考更久”,从而提升表现。
★ 主要贡献
Hugging Face 团队通过复现 DeepMind 等研究成果,并提出了一些创新方法,实现在数学任务上显著提升开放模型的表现:
- 计算最优扩展:实现了 DeepMind 提出的数学能力优化策略,使小型模型在推理阶段性能得到最大化。
- 多样验证树搜索(DVTS):一种团队提出的搜索方法扩展,旨在通过改进多样性提升搜索质量,在大规模计算预算下表现尤为出色。
- 轻量级工具包 “Search and Learn”:为实现搜索策略提供了一套高效的工具,已开放代码。
★ 核心方法
推理阶段计算扩展的两大主要策略:
- 自我优化:模型迭代地修正自身输出,通过识别错误进行自我改进。
- 搜索与验证:生成多个候选答案,使用验证器选择最佳结果,通常通过奖励模型(如过程奖励模型,PRM)评分。
团队聚焦于搜索策略,提出了以下关键方法:
- Best-of-N:生成多个答案,使用奖励模型挑选最优解,优于简单的多数投票方法。
- Beam Search:结合过程奖励模型,逐步优化生成过程,通过高效的搜索机制提升解决复杂问题的能力。
- DVTS:改进 Beam Search,通过独立扩展子树提升多样性,在大计算预算下表现尤为突出。
★ 结果与实验
- 小型模型如 Llama 1B 和 3B 在 MATH-500 基准测试中,通过动态分配计算资源,超越了 Llama 8B 和 70B 模型。
- Beam Search 在中等和高难度问题上表现最佳,而 DVTS 在简单问题和大计算预算下展现出优势。
★ 挑战
- 验证器的重要性:加强验证器的泛化能力是提升搜索性能的关键。
- 自我验证:实现模型自我验证是未来的“圣杯”,但实施难度较大。
- 生成高质量数据:利用搜索方法生成数据,反向优化模型性能。
- 拓展领域:将搜索策略从数学、代码等可验证领域推广至更广泛的任务。
该方法和代码已经开源。
原文链接:huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
ChatGPT
Hugging Face 团队发布了一篇关于“开放模型中的推理阶段计算扩展”(Test-time Compute Scaling) 的研究文章,非常硬核!
该文章探索如何在推理阶段通过动态计算策略提升小型语言模型的性能,使其在困难任务上媲美甚至超越大型模型。
★ 背景与挑战
目前,语言模型的训练阶段计算规模主导了性能提升,但随着模型规模和训练资源的快速增长,预训练成本正变得难以负担。因此,推理阶段计算扩展(Test-time Compute Scaling) 成为一种具有前景的替代方案,通过动态分配计算资源,让模型在解决困难问题时“思考更久”,从而提升表现。
★ 主要贡献
Hugging Face 团队通过复现 DeepMind 等研究成果,并提出了一些创新方法,实现在数学任务上显著提升开放模型的表现:
- 计算最优扩展:实现了 DeepMind 提出的数学能力优化策略,使小型模型在推理阶段性能得到最大化。
- 多样验证树搜索(DVTS):一种团队提出的搜索方法扩展,旨在通过改进多样性提升搜索质量,在大规模计算预算下表现尤为出色。
- 轻量级工具包 “Search and Learn”:为实现搜索策略提供了一套高效的工具,已开放代码。
★ 核心方法
推理阶段计算扩展的两大主要策略:
- 自我优化:模型迭代地修正自身输出,通过识别错误进行自我改进。
- 搜索与验证:生成多个候选答案,使用验证器选择最佳结果,通常通过奖励模型(如过程奖励模型,PRM)评分。
团队聚焦于搜索策略,提出了以下关键方法:
- Best-of-N:生成多个答案,使用奖励模型挑选最优解,优于简单的多数投票方法。
- Beam Search:结合过程奖励模型,逐步优化生成过程,通过高效的搜索机制提升解决复杂问题的能力。
- DVTS:改进 Beam Search,通过独立扩展子树提升多样性,在大计算预算下表现尤为突出。
★ 结果与实验
- 小型模型如 Llama 1B 和 3B 在 MATH-500 基准测试中,通过动态分配计算资源,超越了 Llama 8B 和 70B 模型。
- Beam Search 在中等和高难度问题上表现最佳,而 DVTS 在简单问题和大计算预算下展现出优势。
★ 挑战
- 验证器的重要性:加强验证器的泛化能力是提升搜索性能的关键。
- 自我验证:实现模型自我验证是未来的“圣杯”,但实施难度较大。
- 生成高质量数据:利用搜索方法生成数据,反向优化模型性能。
- 拓展领域:将搜索策略从数学、代码等可验证领域推广至更广泛的任务。
该方法和代码已经开源。
原文链接:huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
ChatGPT