Chatbot do DeepSeek达到17%的准确率,落后于西方竞争对手在NewsGuard的审计中 | 路透社
Reuters
人工智能应用程序 Deepseek 的图标 2025年1月27日 REUTERS/Dado Ruvic 2025年1月29日(路透社) - 中国人工智能初创公司 DeepSeek 的聊天机器人在 NewsGuard 的审计中仅实现了 17% 的新闻和信息提供准确率,排名 11 家竞争对手中的第十位,包括 OpenAI 的 ChatGPT 和谷歌的 Gemini。
该聊天机器人在 30% 的情况下重复了虚假陈述,并在 53% 的情况下对与新闻相关的请求给出了模糊或无用的回答,导致其拒绝率达到 83%,根据 NewsGuard 本周三发布的报告。
这比其西方竞争对手的平均失败率 62% 更糟糕,并引发了对 DeepSeek 声称的技术的质疑,DeepSeek 声称其性能与微软支持的 OpenAI 相当或更好,成本却低得多。
在发布几天后,DeepSeek 的聊天机器人成为苹果应用商店中下载量最高的应用程序 (AAPL.O),引发了人们对美国在人工智能领域领导地位的担忧,并导致市场崩溃,约 1 万亿美元的美国科技股市值蒸发。这家中国初创公司没有立即回应评论请求。
NewsGuard 表示,它对 DeepSeek 应用了与评估其西方同行相同的 300 个请求,其中包括基于 10 个在线传播的虚假陈述的 30 个请求。
指控的主题包括上个月联合健康集团高管布莱恩·汤普森的谋杀,以及阿塞拜疆航空8243航班的坠毁。
NewsGuard的审计还显示,在十个请求中,有三个请求中,DeepSeek在没有被问及与中国相关的问题时,重申了中国政府在该主题上的立场。
在与阿塞拜疆航空事故相关的请求中——与中国无关的问题——聊天机器人回应了北京在此事上的立场,NewsGuard表示。
“DeepSeek的进步的重要性不在于准确回答与中国新闻相关的问题,而在于它可以以与可比AI模型1/30的成本回答任何问题,”D.A. Davidson的分析师吉尔·卢里亚说。
与其他AI模型一样,DeepSeek在回应那些试图利用AI模型创建和传播虚假声明的人的请求时,更容易重复虚假声明,NewsGuard补充道。
(班加罗尔的Rishi Kant报道)
((圣保罗编辑部翻译))
路透社 AC
- 建议主题:
- 技术