深度求索公司公布新型AI推理方法,其下一代模型备受期待 | 南华早报
Xinmei Shen
中国人工智能初创企业深度求索(DeepSeek)提出了一种提升大语言模型(LLM)推理能力的新方法,正值公众期待该公司下一代模型之际。根据周五发表的论文,深度求索与清华大学研究人员合作开发了一项结合生成式奖励建模(GRM)与自原则批判调优的技术。这种双重方法旨在让大语言模型对通用查询提供更优质、更快速的结果。
研究人员写道,由此产生的DeepSeek-GRM模型超越了现有方法,与强大的公共奖励模型相比"实现了具有竞争力的性能"。奖励建模是引导大语言模型符合人类偏好的过程。
据研究人员称,深度求索计划开源GRM模型,但未给出具体时间表。
这篇发表在科学论文预印本平台arXiv的学术论文发布之际,正值业界猜测这家初创公司在全球瞩目的V3基础模型和R1推理模型之后将有何动作。
路透社上月报道,作为R1的继任者,DeepSeek-R2最快可能于本月发布,该公司正急于利用其日益提升的知名度。DeepSeek-R1的发布曾以媲美顶尖模型的性价比震撼全球科技界。
关于传闻中的R2版本发布,深度求索公司一直保持沉默。上月中国媒体报道称,该公司未通过官方公开渠道对此事发表评论,但其客服账号在与商业客户的群聊中否认了这一消息。