深度求索公司公布新型AI推理方法，其下一代模型备受期待 | 南华早报

Xinmei Shen

2025-04-06

中国人工智能初创企业深度求索（DeepSeek）提出了一种提升大语言模型（LLM）推理能力的新方法，正值公众期待该公司下一代模型之际。根据周五发表的论文，深度求索与清华大学研究人员合作开发了一项结合生成式奖励建模（GRM）与自原则批判调优的技术。这种双重方法旨在让大语言模型对通用查询提供更优质、更快速的结果。

研究人员写道，由此产生的DeepSeek-GRM模型超越了现有方法，与强大的公共奖励模型相比"实现了具有竞争力的性能"。奖励建模是引导大语言模型符合人类偏好的过程。

据研究人员称，深度求索计划开源GRM模型，但未给出具体时间表。

这篇发表在科学论文预印本平台arXiv的学术论文发布之际，正值业界猜测这家初创公司在全球瞩目的V3基础模型和R1推理模型之后将有何动作。

路透社上月报道，作为R1的继任者，DeepSeek-R2最快可能于本月发布，该公司正急于利用其日益提升的知名度。DeepSeek-R1的发布曾以媲美顶尖模型的性价比震撼全球科技界。

关于传闻中的R2版本发布，深度求索公司一直保持沉默。上月中国媒体报道称，该公司未通过官方公开渠道对此事发表评论，但其客服账号在与商业客户的群聊中否认了这一消息。