谷歌可在用户选择退出后仍利用网络内容训练搜索AI——彭博社

Davey Alba

2025-05-03

谷歌可以训练其搜索专用AI产品（如AI概览），即使出版商已选择退出谷歌AI产品训练，该公司产品副总裁周五在法庭作证时表示。

谷歌DeepMind副总裁Eli Collins称，这是因为谷歌为出版商提供的AI训练退出控制仅适用于其AI实验室Google DeepMind的工作，不涵盖公司其他部门。

“一旦将Gemini"AI模型"纳入搜索部门，该部门就能利用出版商已选择退出的数据进行训练，对吗？“司法部律师Diana Aguilar质询道。

“正确——仅限于搜索用途，“Collins回答。

网站在搜索结果顶部使用AI生成查询答案摘要，可能导致用户不再点击独立网站——出版商表示这种趋势正侵蚀其收入。而谷歌正是利用这些网站的数据生成AI答案所需信息。

这场为期三周的华盛顿联邦法院庭审旨在裁定谷歌应如何恢复搜索市场竞争。去年美国地区法官Amit Mehta裁定该科技巨头非法垄断搜索市场，现正评估反垄断执法者提出的一系列整改方案。

美国司法部正敦促法院强制谷歌出售其广泛使用的Chrome浏览器，并共享其用于生成搜索结果的关键数据。该机构还要求梅塔法官禁止谷歌付费成为其他应用和设备上的默认搜索引擎——这一限制将延伸至其AI产品（包括Gemini），政府认为这些产品从谷歌在搜索领域的非法垄断中获益。

司法部律师阿吉拉尔询问柯林斯是否知道，除了谷歌DeepMind训练AI模型所用的内容外，谷歌搜索部门还能获取多少额外数据。当柯林斯回答不知道时，阿吉拉尔出示了一份2024年8月26日标题为"搜索GenAI<>Gemini v3"的文件。

根据该文件，在过滤掉出版商选择不允许谷歌用于AI训练的内容后，谷歌从1600亿个"token”（内容片段）中移除了800亿个。文件还列出了搜索"会话数据”（即用户与谷歌搜索互动期间收集的数据）以及YouTube视频，作为可以增强谷歌AI模型的数据。

查看文件后，梅塔法官要求柯林斯澄清：“1600亿token中移除800亿，意味着50%是被出版商选择退出的内容？”

“这是正确的。”柯林斯回应道。

随后，谷歌的律师试图证明，这家科技公司在搜索领域的主导地位并未阻碍其他AI公司激烈竞争，在其聊天机器人服务中提供准确、实时的结果。例如，如果用户向AI聊天机器人询问体育比分，柯林斯作证称，聊天机器人很可能会返回正确答案，因为开发该机器人的公司与体育比分提供商有商业安排——它不需要依赖网络索引。

但证词也显示，谷歌已探索如何通过多年来运营全球最受欢迎的搜索引擎所收集的数据大幅改进其AI模型。在对柯林斯的交叉询问中，美国司法部律师阿吉拉尔向这位谷歌副总裁展示了一份为谷歌DeepMind首席执行官德米斯·哈萨比斯准备的简报文件。

在一段评论中，哈萨比斯曾考虑用大量搜索数据（包括搜索排名）训练一个未指明的谷歌AI模型，以观察这些数据相比未经此类训练的模型能带来多大提升。

“谷歌最终是否利用搜索数据构建了一个模型？”阿吉拉尔问柯林斯。

“据我所知没有。”他回答。

“但至少哈萨比斯先生认为这值得研究？”她追问道。

“是的。”柯林斯说。