神来之笔:为何深度求索的AI优势可能源于其中文底蕴 | 南华早报
Zhang Tong
随着中国本土人工智能开发公司深度求索撼动全球科技与投资格局,国内讨论开始聚焦于这个性价比更高的语言模型为何能对ChatGPT等国际竞品形成意外优势。这家AI初创企业凭借卓越性能、亲民价格和开源架构广受赞誉,但网络社区日益形成一种共识:其成功很大程度上源于预训练阶段对汉字的深度整合。普遍观点认为,中文训练数据更高的信息密度增强了深度求索的逻辑能力,使其能更高效处理复杂概念。该理论支持者指出,中文训练使模型的语言理解能力更为敏锐。作为表意文字,汉字即使书写错误仍能传递含义,确保读者理解文本。
“汉字以最小成本实现最大信息传递。作为一种高效信息编码,中文极大提升了人工智能处理效率并降低成本。”通信行业分析师、舆论领袖项立刚周一在社交媒体发文称。
“AI正进入中文时代。”
另一些人则认为,汉字与图像、音频等多维度信息紧密关联。中国传统诗词常与绘画或音乐相配,他们表示这为深度求索提供了丰富的多模态学习素材。
科技媒体平台DeepTech的报道中,耶鲁大学助理教授杨卓然强调了数据质量在训练大模型中的重要性。他表示,数据质量不仅影响模型获取和表达知识的能力,还会影响生成内容的风格与准确性。
深度求索的训练数据来源尚未公开,但有分析指出该模型的中文训练素材可能包含古典文献、网络用语、学术论文、政府公文及地方方言等。