字节跳动实习生主导开源项目推进DeepSeek AI推理工作 | 南华早报
Coco Feng
在人工智能领域重金投入的TikTok母公司字节跳动,近日发布了一套新系统,宣称其能优化深度求索(DeepSeek)在AI推理模型训练方面的成果。
根据字节跳动与清华大学智能产业研究院本周联合发表的研究论文,这项名为DAPO(解耦剪辑与动态采样策略优化)的可扩展强化学习算法,能帮助大语言模型实现更优异的复杂推理行为,如自我验证与迭代优化。
论文显示,该算法在阿里巴巴集团控股的Qwen2.5-32B基础模型上,以50分的成绩超越了深度求索R1推理模型采用相同阿里模型时获得的47分(测试基于2024年美国数学邀请赛AIME)。值得注意的是,DAPO仅用一半训练步数就取得了更优结果。
字节跳动在人工智能领域投入巨资。图片来源:Digitimes
该成果获得学界与业界的积极评价。谷歌DeepMind工程师Philipp Schmid在社交平台X分享该项目时表示,新方法在强化学习方面"优于"深度求索的"群体相对策略优化(GRPO)"。GRPO是深度求索的训练方法之一,通过比较不同动作并利用观察"群体"进行更新来训练模型。