深度求索的竞争对手MiniMax表示,其首款AI推理模型将R1的计算量减半 | 南华早报
Ben Jiang
上海人工智能初创企业MiniMax推出了一款开源推理模型,该公司表示在某些任务中,该模型仅需竞争对手深度求索模型一半的计算资源。周二,该公司在其官方微信公众号上宣布推出首款推理模型MiniMax-M1。根据同步发布的技术白皮书,在处理生成长度不超过64,000个标记的推理时,M1的算力消耗比深度求索R1模型低逾50%。
“相较于深度求索…这种计算成本的大幅降低使得M1在推理和大规模[模型]训练中都显著高效,“MiniMax研究人员在报告中写道。
这款新模型的发布正值中国科技巨头与初创企业竞相开发先进推理模型之际——这类模型旨在回应问题前先进行"思考”——以期追赶今年早些时候因高性价比R1模型引发全球关注的深度求索。MiniMax在技术白皮书中24次提及深度求索,凸显了这家公司挑战这家杭州AI行业新贵的雄心。
MiniMax援引第三方基准测试显示,M1在性能上可匹敌谷歌、微软支持的OpenAI等全球领先企业的模型亚马逊公司支持的Anthropic在数学、编程和领域知识方面表现优异。M1基于拥有4560亿参数的MiniMax-Text-01基础模型构建,采用了混合专家架构——这是一种旨在减少计算量的AI模型设计方法,深度求索公司也使用该技术。M1还运用了闪电注意力技术,可加速训练过程、降低内存消耗,并使模型能够处理更长的文本。