深度求索与清华大学合作开发自我提升的AI模型——彭博社
Saritha Rai
深度求索正与清华大学合作,致力于减少其AI模型所需的训练量以降低运营成本。
这家中国初创公司凭借一月份推出的低成本推理模型引发市场震动,现与北京高校的研究人员联合发表论文,详述了一种提升模型效率的新型强化学习方法。
研究人员写道,新方法通过奖励更准确、更易理解的响应,帮助人工智能模型更好地遵循人类偏好。强化学习在特定应用场景中已证明能有效加速AI任务执行,但将其扩展到更广泛领域仍具挑战性——这正是深度求索团队试图通过"自原则批判调优"解决的问题。论文显示,该策略在多项基准测试中优于现有方法,能以更少计算资源实现更优性能。
该公司表示,这些新模型被命名为DeepSeek-GRM(通用奖励建模的缩写),将以开源形式发布。包括中国科技巨头阿里巴巴集团和旧金山OpenAI在内的其他AI企业,也正在开拓实时任务执行中提升推理与自我优化能力的新领域。
总部位于加利福尼亚州门洛帕克的Meta Platforms Inc.发布了其最新的人工智能模型系列Llama 4,并在周末宣布这是其首个采用混合专家(MoE)架构的模型。DeepSeek的模型在很大程度上依赖MoE以更高效地利用资源,而Meta将其新发布的产品与这家位于杭州的初创公司进行了基准测试。DeepSeek尚未明确其下一代旗舰模型的发布时间。