阿里巴巴升级旗舰版Qwen3模型 数学与编程能力超越OpenAI和深度求索 | 南华早报
Coco Feng
阿里巴巴集团发布了第三代通义千问Qwen3系列大语言模型的升级版本,其成员在数学和编程能力上的评分已超越竞争对手OpenAI与深度求索(DeepSeek)的产品。据周二人工智能社区HuggingFace及阿里开源平台ModelScope的更新公告,新型号Qwen3-235B-A22B-Instruct-2507-FP8作为开源模型,在"综合能力上实现显著提升,包括指令遵循、逻辑推理、文本理解、数理科学、编程及工具使用等方面"。阿里巴巴持有《南华早报》。
该模型在部分评估中表现优于竞品,例如2025年美国数学邀请赛测试中取得70.3分。相较之下,深度求索3月发布的基础模型DeepSeek-V3-0324得分为46.6,而OpenAI的GPT-4o-0327仅获26.7分。
编程能力方面,新Qwen模型在MultiPL-E基准测试中获得87.9分,略高于上述深度求索(82.2分)和OpenAI(82.7分)模型,但稍逊于Anthropic公司Claude Opus 4非思考模式的88.5分。
此次升级基于Qwen3-235B-A22B-FP8版本,但仅支持非思考模式——即AI系统直接输出结果而不展示思考模型可能采用的显式推理步骤。因此其上下文长度提升八倍至25.6万token,可支持更长的单轮对话文本处理。
同样在周二,阿里巴巴宣布将一款拥有30亿参数的Qwen模型集成到惠普在中国个人电脑上的智能助手“小惠慧”中,以增强包括起草文档和会议总结在内的功能。