报道称，DeepSeek创新技术加速长文本处理 | 南华早报

Ling Xin

2025-02-20

中国AI初创企业深度求索发布了一项新技术，可使下一代语言模型以比传统方法快得多、成本低得多的速度处理超长文本。根据CEO梁文峰及其团队发表的论文，通过训练AI聚焦关键信息而非逐字处理，该公司的"原生稀疏注意力"(NSA)方法将长文本处理速度最高提升11倍。这篇周二发表在预印本平台arXiv的论文指出，NSA方法通过算法创新与硬件优化相结合，在保持性能的同时显著提升效率。该平台发布的论文尚未经过同行评审。

上月震撼AI界的开源低成本模型R1研发团队表示，该技术能增强AI解决复杂问题、编写大型程序和追踪长对话的能力。

“NSA针对现代硬件进行优化设计，在保证性能的前提下加速推理并降低预训练成本，“深度求索在马斯克旗下xAI公司发布Grok 3模型次日于X平台发文称。01:18

特朗普：中国AI初创企业深度求索的强劲表现是对美国科技界的"警钟”

像ChatGPT这样的AI模型使用一种称为注意力机制的技术来处理文本。正如人类通过回忆前面的词语来理解句子一样，AI会判断哪些词语重要以及它们之间如何相互关联。