DeepSeek升级版R1 AI模型在新基准测试中编程能力媲美谷歌和Anthropic | 南华早报

Sam Phillips

2025-06-19

中国人工智能初创企业深度求索(DeepSeek)的最新模型升级版本，根据实时AI编程竞赛平台WebDev Arena的最新结果显示，其编码性能已与行业巨头谷歌和Anthropic比肩。在评估大语言模型(LLM)快速准确解决编码任务能力的WebDev Arena排行榜上，深度求索升级版DeepSeek-R1与谷歌Gemini-2.5、Anthropic的Claude Opus 4并列榜首。这家杭州公司的R1模型获得1408.84分，与Opus 4的1405.51分和Gemini-2.5的1433.16分处于同一水平。

模型输出质量由人工评估确定分数。自今年1月发布以来，深度求索的推理模型在各项基准测试中始终保持着接近领先模型的水平，尽管其训练成本显著更低。

深度求索于五月下旬低调更新R1，这是该模型自高调亮相后的首次迭代。这家初创公司在开源AI开发者社区Hugging Face发布了R1-0528版本，称其为"小幅升级"，但未透露具体改进细节。该公司后续表示，更新后的模型在推理和创意写作能力方面有所提升，幻觉现象（AI生成缺乏事实依据的误导性信息）减少了50%。R1更新在开发者社区中引起了关注，同时人们对深度求索的下一代推理模型R2抱有广泛期待。公司对其重大后续版本的发布时间透露甚少。

深度求索将其高性能模型开源的做法使其与许多领先企业区分开来。开发者能够按需使用和修改代码，促成了早期的快速采用。在中国，这促使了百度等科技巨头支持开源模型方法。