阿里巴巴升级旗舰版Qwen3模型数学与编程能力超越OpenAI和深度求索 | 南华早报

Coco Feng

2025-07-23

阿里巴巴集团发布了第三代通义千问Qwen3系列大语言模型的升级版本，其成员在数学和编程能力上的评分已超越竞争对手OpenAI与深度求索（DeepSeek）的产品。据周二人工智能社区HuggingFace及阿里开源平台ModelScope的更新公告，新型号Qwen3-235B-A22B-Instruct-2507-FP8作为开源模型，在"综合能力上实现显著提升，包括指令遵循、逻辑推理、文本理解、数理科学、编程及工具使用等方面"。阿里巴巴持有《南华早报》。

该模型在部分评估中表现优于竞品，例如2025年美国数学邀请赛测试中取得70.3分。相较之下，深度求索3月发布的基础模型DeepSeek-V3-0324得分为46.6，而OpenAI的GPT-4o-0327仅获26.7分。

编程能力方面，新Qwen模型在MultiPL-E基准测试中获得87.9分，略高于上述深度求索（82.2分）和OpenAI（82.7分）模型，但稍逊于Anthropic公司Claude Opus 4非思考模式的88.5分。

此次升级基于Qwen3-235B-A22B-FP8版本，但仅支持非思考模式——即AI系统直接输出结果而不展示思考模型可能采用的显式推理步骤。因此其上下文长度提升八倍至25.6万token，可支持更长的单轮对话文本处理。

同样在周二，阿里巴巴宣布将一款拥有30亿参数的Qwen模型集成到惠普在中国个人电脑上的智能助手“小惠慧”中，以增强包括起草文档和会议总结在内的功能。