报道称,DeepSeek创新技术加速长文本处理 | 南华早报
Ling Xin
中国AI初创企业深度求索发布了一项新技术,可使下一代语言模型以比传统方法快得多、成本低得多的速度处理超长文本。根据CEO梁文峰及其团队发表的论文,通过训练AI聚焦关键信息而非逐字处理,该公司的"原生稀疏注意力"(NSA)方法将长文本处理速度最高提升11倍。这篇周二发表在预印本平台arXiv的论文指出,NSA方法通过算法创新与硬件优化相结合,在保持性能的同时显著提升效率。该平台发布的论文尚未经过同行评审。
上月震撼AI界的开源低成本模型R1研发团队表示,该技术能增强AI解决复杂问题、编写大型程序和追踪长对话的能力。
“NSA针对现代硬件进行优化设计,在保证性能的前提下加速推理并降低预训练成本,“深度求索在马斯克旗下xAI公司发布Grok 3模型次日于X平台发文称。
01:18
特朗普:中国AI初创企业深度求索的强劲表现是对美国科技界的"警钟”
特朗普:中国AI初创企业深度求索的强劲表现是对美国科技界的"警钟”
像ChatGPT这样的AI模型使用一种称为注意力机制的技术来处理文本。正如人类通过回忆前面的词语来理解句子一样,AI会判断哪些词语重要以及它们之间如何相互关联。