Chatbot do DeepSeek达到17%的准确率，落后于西方竞争对手在NewsGuard的审计中 | 路透社

Reuters

2025-01-30

人工智能应用程序 Deepseek 的图标 2025年1月27日 REUTERS/Dado Ruvic 2025年1月29日（路透社） - 中国人工智能初创公司 DeepSeek 的聊天机器人在 NewsGuard 的审计中仅实现了 17% 的新闻和信息提供准确率，排名 11 家竞争对手中的第十位，包括 OpenAI 的 ChatGPT 和谷歌的 Gemini。

该聊天机器人在 30% 的情况下重复了虚假陈述，并在 53% 的情况下对与新闻相关的请求给出了模糊或无用的回答，导致其拒绝率达到 83%，根据 NewsGuard 本周三发布的报告。

这比其西方竞争对手的平均失败率 62% 更糟糕，并引发了对 DeepSeek 声称的技术的质疑，DeepSeek 声称其性能与微软支持的 OpenAI 相当或更好，成本却低得多。

在发布几天后，DeepSeek 的聊天机器人成为苹果应用商店中下载量最高的应用程序 (AAPL.O)，引发了人们对美国在人工智能领域领导地位的担忧，并导致市场崩溃，约 1 万亿美元的美国科技股市值蒸发。这家中国初创公司没有立即回应评论请求。

NewsGuard 表示，它对 DeepSeek 应用了与评估其西方同行相同的 300 个请求，其中包括基于 10 个在线传播的虚假陈述的 30 个请求。

指控的主题包括上个月联合健康集团高管布莱恩·汤普森的谋杀，以及阿塞拜疆航空8243航班的坠毁。

NewsGuard的审计还显示，在十个请求中，有三个请求中，DeepSeek在没有被问及与中国相关的问题时，重申了中国政府在该主题上的立场。

在与阿塞拜疆航空事故相关的请求中——与中国无关的问题——聊天机器人回应了北京在此事上的立场，NewsGuard表示。

“DeepSeek的进步的重要性不在于准确回答与中国新闻相关的问题，而在于它可以以与可比AI模型1/30的成本回答任何问题，”D.A. Davidson的分析师吉尔·卢里亚说。

与其他AI模型一样，DeepSeek在回应那些试图利用AI模型创建和传播虚假声明的人的请求时，更容易重复虚假声明，NewsGuard补充道。

(班加罗尔的Rishi Kant报道)

((圣保罗编辑部翻译))

路透社 AC

建议主题：
技术