字节跳动实习生主导开源项目推进DeepSeek AI推理工作 | 南华早报

Coco Feng

2025-03-22

在人工智能领域重金投入的TikTok母公司字节跳动，近日发布了一套新系统，宣称其能优化深度求索（DeepSeek）在AI推理模型训练方面的成果。

根据字节跳动与清华大学智能产业研究院本周联合发表的研究论文，这项名为DAPO（解耦剪辑与动态采样策略优化）的可扩展强化学习算法，能帮助大语言模型实现更优异的复杂推理行为，如自我验证与迭代优化。

论文显示，该算法在阿里巴巴集团控股的Qwen2.5-32B基础模型上，以50分的成绩超越了深度求索R1推理模型采用相同阿里模型时获得的47分（测试基于2024年美国数学邀请赛AIME）。值得注意的是，DAPO仅用一半训练步数就取得了更优结果。

字节跳动在人工智能领域投入巨资。图片来源：Digitimes

该成果获得学界与业界的积极评价。谷歌DeepMind工程师Philipp Schmid在社交平台X分享该项目时表示，新方法在强化学习方面"优于"深度求索的"群体相对策略优化（GRPO）"。GRPO是深度求索的训练方法之一，通过比较不同动作并利用观察"群体"进行更新来训练模型。