微软、谷歌和Meta押注虚假数据来训练AI模型 - 彭博社

Shirin Ghaffary

2024-05-03

摄影师：Gabby Jones/Bloomberg乔·拜登的政策得到了股票投资者的认可。

摄影师：Ting Shen/Bloomberg

模糊的参与规则。

摄影师：Kena Betancur/AFP/Getty Images

你好！我是Shirin，本周从东京报道。顶尖人工智能公司正在尝试一种替代方法来满足他们对高质量数据的无尽需求。但首先…

三件事值得知道：

• 微软对谷歌的领先地位感到担忧，因此投资了OpenAI• 顶尖风投和政治人物齐聚华盛顿参加了一次关于人工智能和国家安全的峰会• OpenAI的竞争对手Anthropic推出了一款iPhone应用程序供其Claude聊天机器人使用

对数据的无尽需求

每个聊天机器人的聪明回答背后都是一大批数据 — 有时是来自文章、书籍和在线评论的数万亿字词，用来教导人工智能系统理解用户的查询。行业内的共识是，为了打造下一代人工智能产品，将需要越来越多的信息。然而，这个计划存在一个大问题：互联网上只有有限的高质量数据。为了获取这些数据，人工智能公司通常要么向出版商支付数百万美元以授权其内容，要么从网站上抓取数据，从而使自己暴露于版权之争之中。越来越多的顶尖人工智能公司正在探索另一种方法，这种方法在人工智能社区中引起了分歧：使用合成数据，或者说基本上是虚假数据。它的运作方式如下：科技公司可以利用自己的人工智能系统生成文字和其他媒体。这些人造数据随后可以用来训练未来版本的同一系统，正如Anthropic首席执行官Dario Amodei所称的，这是一个潜在的“无限数据生成引擎”。这样，人工智能公司可以避免引起太多的法律、伦理和隐私问题。在计算机领域，合成数据的概念并不新鲜 — 这是一个几十年来一直被用来的技术，用于从去匿名化个人信息到模拟自动驾驶技术的道路状况。但生成式人工智能的兴起使得更容易以规模创建更高质量的合成数据 — 同时也增加了迫切性。Anthropic告诉彭博社，他们使用合成数据构建了驱动其聊天机器人Claude的最新模型。Meta和Google已经使用它开发了最近的开源模型。Google DeepMind最近表示，他们依赖这种方法来训练一个模型，可以解决奥林匹克级别的几何问题。许多人猜测OpenAI是否正在使用这样的数据来训练其文本到视频图像生成器Sora。（OpenAI告诉彭博社，他们正在探索使用合成数据，但不愿透需更多细节。）

Anthropic CEO Dario Amodei表示，使用合成数据可以让AI公司创建一个“无限数据生成引擎”。摄影师：Valerie Plesch/Bloomberg在微软，生成式AI研究团队最近在一个项目中转向使用合成数据。他们想要构建一个更小、资源消耗更少的AI模型，但仍具有有效的语言和推理能力。为此，他们尝试模仿孩子通过阅读故事学习语言的方式。团队没有向AI模型输入大量的儿童图书，而是列出了一个四岁孩子能理解的3,000个单词的清单。然后，他们要求一个AI模型使用清单中的一个名词、一个动词和一个形容词创作一个儿童故事。研究人员在几天内重复了这个提示数百万次，生成了数百万个短篇故事，最终帮助开发了另一个更有能力的语言模型。微软已经将这个新的“小”语言模型系列，Phi-3，开源并提供给公众使用。微软生成式AI副总裁Sébastien Bubeck表示：“突然之间，你有了更多的控制权。你可以在更细微的层面上决定你希望你的模型学习什么。”Bubeck表示，使用合成数据，你还可以通过向数据添加更多解释来更好地引导AI系统进行学习过程，否则这些数据对机器来说可能会令人困惑。但一些AI专家对这种技术的风险表示担忧。牛津、剑桥等几所重要大学的一组研究人员去年发表了一篇论文，解释了使用ChatGPT生成的合成数据构建新的AI模型可能导致他们所称的“模型崩溃”。在他们的实验中，基于ChatGPT输出构建的AI模型开始显示“不可逆缺陷”，似乎忘记了最初接受训练的内容。在一个例子中，研究人员用有关历史英国建筑的文本提示一个大型语言AI模型。在研究人员多次使用合成数据重新训练模型后，该模型开始生成关于丹顶鹤的无意义胡言乱语。研究人员还提出了合成数据可能放大数据集中的偏见和有毒性的担忧。一些合成数据的支持者则表示，通过采取适当的措施，以这种方式开发的模型可以与或优于基于真实数据构建的模型。剑桥大学的博士生Zakhar Shumaylov在一封电子邮件中表示：“如果做得对，合成数据是有用的。然而，如何正确做还没有明确的答案；一些偏见对人类来说可能非常不明显。”还有一个更为哲学性的争论：如果大型语言模型陷入无休止地训练自己内容的循环中，AI最终会变得不再是机器模仿人类智能，而更多地是模仿其他机器的语言吗？斯坦福大学计算机科学教授Percy Liang表示，要生成有用的合成数据，公司仍需要人类智慧的真实作品，如书籍、文章和代码。“合成数据并非真实数据，就像梦到自己爬上珠穆朗玛峰并不等同于真正爬上珠穆朗玛峰一样，”Liang在一封电子邮件中说。合成数据和AI领域的先驱们一致认为，不能将人类排除在外。真实的人仍然需要创建和完善人工数据集。“合成数据不是按下按钮说‘嘿，为我生成一些数据’。这是一个非常复杂的流程，”Bubeck说。“在创建大规模合成数据时需要大量人力。”

**有关人工智能的问题？**给我发电子邮件，Shirin Ghaffary，我会尽力在未来的新闻简报中回答您的问题。

一个神秘的机器人

本周，一个神秘的新聊天机器人在一个基准网站上出现，似乎在一些测试中与业界领先的OpenAI的GPT-4性能相媲美，引起了人工智能社区的轰动。然后，就像出现一样迅速地消失了。本周早些时候，一个名为gpt2-chatbot的新产品出现在LMSYS Chatbot Arena上，这是一个用于比较大型语言模型的平台。宾夕法尼亚大学沃顿商学院的教授Ethan Mollick经常测试聊天机器人，说 gpt2-chatbot“在某些方面似乎与GPT-4的大致能力水平相当，甚至在某些方面更好。”聊天机器人的开发者没有出现在基准网站上，但鉴于其出色的表现，一些人迅速猜测它可能来自OpenAI。OpenAI的首席执行官Sam Altman通过一条神秘的推文周一加剧了这种猜测：“我对gpt2有好感。”OpenAI拒绝置评。在一条推文中，LMSYS周二表示，他们以前曾与“几家”人工智能模型开发者合作，“为预览测试提供社区访问未发布的模型/检查点。” LMSYS表示，他们不得不“暂时”将gpt2-chatbot下线“由于意外的高流量和容量限制。”“请继续关注它的更广泛发布，”LMSYS说，并加上一个微笑的表情符号。

学校中的人工智能

ChatGPT问世以来的第一个完整学年即将结束，彭博记者们渴望听取学生和教师关于生成式人工智能在课堂上产生的影响。告诉我们你的经历这里。

本周人物语录

“我认为没什么可说的。他对人工智能的大部分了解都来自这些年与我一起工作。”

Demis Hassabis

Google DeepMind CEO

在一次采访中，Hassabis似乎在批评他的朋友兼竞争对手Mustafa Suleyman。Suleyman与Hassabis共同创立了DeepMind，最近被任命为微软人工智能CEO。### 值得关注的人

克里斯·米勒，“芯片战争”作者和塔夫茨大学国际历史教授，每天加入“华尔街周刊”谈论对人工智能芯片需求的增长。彭博### 深度学习

起诉OpenAI和微软侵犯版权
达成协议使用ChatGPT中来自《金融时报》的内容
押注280亿美元将俄亥俄打造成全球芯片之都
最可怕的工作之一
开发一个深度伪造视频与粉丝互动

彭博社更多内容

获取科技日报以及更多彭博科技周刊内容，请订阅：

网络公告涵盖黑客和网络间谍的阴影世界
游戏进行中报道视频游戏业务
开机提供苹果独家新闻、消费者科技新闻等
屏幕时间报道好莱坞和硅谷的碰撞
声音片段报道播客、音乐行业和音频趋势

杰米·戴蒙最近被问到：“如果你必须描述美国经济，它有多具有韧性？” 他的回答毫不含糊：“基本上，它正在蓬勃发展。” 这是自他近20年前成为全球最大银行——摩根大通公司的董事长兼首席执行官以来，第一次他说出这样的赞美之词。

“如果你看看疫情爆发前的经济情况，过去20年增长非常缓慢，” 他在4月23日对纽约经济俱乐部表示。“但是如果你看看此后的经济情况，它一直在蓬勃发展。失业率达到历史最低水平；在过去两三年里，失业率一直低于4%。” 这是自现年68岁的戴蒙上小学以来未曾见过的持续失业率。“即使我们陷入衰退，美国消费者比以前富裕得多，” 他说。“债务服务比率非常低……他们的房价上涨；他们的股价上涨。”

彭博观点北京在南中国海玩弄危险游戏习近平的欧洲之行是一次挽救任务即使是埃隆·马斯克也无法毁掉电动汽车充电网络死亡赌注如何赚钱？无论身在何处，对美国的乐观情绪都得到了投资者的共鸣。根据彭博编制的数据，摩根大通是全球市值排名前20的20家美国公司之一，这种情况并非一直如此：在过去三年中，由微软、苹果、英伟达和谷歌母公司领导的美国企业表现优异，超过了自1970年以来未曾见过的全球其他上市股票，彭博编制的数据显示。

所有这些都可以另一种方式表达对美国的信心从未如此之高，这体现在自2021年以来投资者愿意为美国股票支付的平均溢价创下纪录的26%。根据彭博编制的数据，这比他们在2017年支付的12%溢价高出一倍多。要了解世界对美国科技的重视程度，可以考虑一下，在MSCI发达国家世界指数中，从事该行业的美国公司占187家公司中的112家，占全球科技行业市值的创纪录85%。

扩大的溢价

投资者在拜登时代给予美国股票远高于外国股票的市盈率，这显示了美国的特殊性

来源：彭博社

注：措施为12个月前瞻性市盈率

这一切都不是偶然的。股市，至少可以说是经济学家约翰·梅纳德·凯恩斯可能称之为对乔·拜登总统经济政策的心理公投，被称为拜登经济学。投资者在对美国企业的热情中，默许其主要成就——美国救援计划法案、基础设施投资和就业法案、通胀削减法案和芯片与科学法案——对美国经济有益。正是最后一项立法，该立法资助在美国境内制造半导体，这让戴蒙对接下来会发生的事情感到兴奋。他告诉纽约经济俱乐部说：“技术是改变世界的东西。”“人工智能将是其中之一。”

戴蒙在曼哈顿中城齐格菲尔德宴会厅讨论时没有提到的是，拜登于2022年签署的芯片与科学法案导致美国近1500亿美元投资于半导体研究、开发和生产。就在上周，宣布美国计划向美光科技公司授予多达136亿美元的补助和贷款，以帮助这家存储芯片制造商建设新的美国工厂。根据彭博社汇编的分析师估计，112家美国上市科技公司中的20家半导体企业预计2024年销售额将增长52%，2025年将增长19%。

利润所在

美国公司的每股收益增长速度被认为比外国公司快得多

来源：彭博社

注：预测的收益为未来12个月

不要被误导以为这只是科技问题。世界前20大公司中包括了企业集团伯克希尔·哈撒韦公司、制药公司礼来公司、零售商沃尔玛公司、医疗保健公司联合健康集团、能源公司埃克森美孚公司和万事达卡公司。

换句话说，这是对美国的一个很好的代表。所有这些都解释了为什么商业圆桌会长和杜克大学首席财务官调查都显示在拜登首个任期的最后一年，对未来的信心正在上升。相同的调查在他的前任唐纳德·特朗普任期内一直在稳步下降，从2018年初到2019年（不包括2020年的新冠疫情）。最新的CEO报告值得注意，因为它显示了对更强销售、更大资本支出和更多招聘的期望。

“我对未来感到非常兴奋，”迪蒙说。世界的投资者也是如此。

更多来自彭博观点：

美国的例外主义在债券市场中清晰可见：莫哈默德·埃尔-埃里安
不要担心美联储，工资增长是净正面：乔恩·莱文
美元比货币更有护甲：丹尼尔·莫斯

想要更多彭博观点吗？OPIN <GO>。或订阅我们的每日新闻简报。

对于任何正在寻找大学或学院校长工作的人来说，只需耐心等待 — 当困扰美国高等教育的抗议结束时，很可能会有更多职位空缺。

诚然，大学校长这一备受关注的角色在过去几周中失去了很多吸引力，因为亲巴勒斯坦的学生抗议在大学校园内爆发，迫使管理人员公开应对各种拥有截然不同观点和利益的利益相关者。

但在某些情况下，那些坐在象牙塔最顶端、想要保住自己工作的人并没有给自己带来任何好处。我不会假装知道从我的象牙塔内部发生的事情的每一个细节。但根据校长办公室发布的通讯，许多人留下的印象是，高等教育领域急需更多的危机管理培训 — 这是一个令人惊讶的发现，考虑到大学校长的首要责任是监督一群充满激情的青年成年人，他们的前额叶皮层仍在发育，使他们容易产生冒险行为。

彭博观点北京在南中国海玩弄危险游戏习近平的欧洲之行是一次挽救任务甚至连埃隆·马斯克也无法毁掉电动汽车充电网络死亡赌注如何赚钱？一切都始于哥伦比亚大学，周二晚上发生了令人震惊的场面，警方将自己围困在校园建筑物内的学生驱逐出去。（完整披露：我曾就读于该大学的新闻学研究生院。）这是抗议活动的最新升级，大学校长内马特·沙菲克首次尝试在上个月她国会证词后的第二天试图关闭。

在她4月18日的请求中，沙菲克向纽约市警察局寻求帮助，以关闭校园中心的抗议者营地，她以安全为由提到了四次，安全和危险各提到了一次。这种措辞旨在引起警惕。但它也很模糊，沙菲克从未定义她所使用的术语，也没有举出具体例子说明为什么情况升级到需要警方介入的程度。如果安全、安全和危险是您召集执法人员的红线，那么在您援引它们时应该非常清楚您的意思。

缺乏清晰度使沙菲克遭受批评，认为这一决定是表演性的，旨在安抚她在国会的批评者。毫不奇怪，警方的存在只加剧了局势，并成为周二晚上事件的前兆。它还为学生们随后在全国范围内建立的营地设立了紧张的基调。

模糊的修辞和交战规则目前在学术界普遍存在。正如我的彭博观点同事杰西卡·卡尔周一所指出的，她的母校印第安纳大学布卢明顿校区在最后一刻修改了一项长达55年的校园政策，以便逮捕学生。回到哥伦比亚大学，沙菲克似乎违反了该校1968年学生抗议活动后建立的协议；她授权纽约警察局对该校的行动进行了最初的扫荡，而这是在该校参议院执行委员会一致反对的情况下进行的。

“整个学年的问题在于管理层一直在随意制定规则，而且通常甚至不宣布这些变化，”哥伦比亚大学和巴纳德人类学教授纳迪亚·阿布·艾尔-哈吉最近在《纽约书评》的采访中说。

哥伦比亚的情况本不必走到这一步。例如，布朗大学的管理层已经与学生示威者达成了协议，而没有达到我们在其他大学校园看到的动荡程度。抗议者表示他们将拆除他们的营地，而大学领导表示他们将讨论并投票决定是否从与以色列军事行动有关的公司撤资。

大学愿意与学生进行谈判并做出实质性让步，但也有自己的底线。布朗大学校长克里斯蒂娜·帕克森明确表示不会撤销去年12月在大学静坐抗议中被捕的41名学生的指控。

“我尊重学生们去年12月做出被捕的明智选择所表现出的信念和激情，”帕克森在一封致抗议者的信件中写道。但“公民抗命的实践意味着接受对良心问题决策的后果。” 这可能不是学生们想听到的，但她在自己的立场和支撑其立场的逻辑上非常明确。

芝加哥大学也以同样清晰的方式运作。这可能是校园尚未陷入混乱的原因之一。在数百名学生在校园内建立亲巴勒斯坦人的营地后，该校校长保罗·阿利维萨托斯发布了一则信息，阐明了该机构的价值观（“尽可能给予言论自由最大的空间”）。他提供了现实生活中的例子，涉及到底线两侧的情况：获得覆盖部分广场的巨大巴勒斯坦国旗的许可，可以；占领建筑物，干扰学习和大学的运作，不可以。“当言论变成干扰时，我们会果断采取行动，保护学生的学习环境和大学的运作免受真正具有破坏性的抗议者的影响，”他写道。

芝加哥大学在这一时刻中可能有助于其应对的是其明确定义的原则，根据这些原则，该大学在“观点中立”的立场下运作。该机构不发表任何政治或社会性质的声明，认为这样做会扼杀言论自由。我不会对是否在所有事情上保持中立是正确的政策或方法进行评判，但我认为拥有一个强大的运作框架是重要的。当事情达到临界点时，它可以实现快速和明确的决策。这使得每个人都遵守相同的规则，在危机期间，这确实是保持每个人安全、稳定和远离危险所需的。

更多来自彭博观点：

以色列，哈马斯现在可以结束他们的永恒战争：马克·张伯伦
学生抗议者能实现他们的目标吗？斯蒂芬·卡特
大学需要定义反犹太主义。这就是如何做的：诺亚·费尔德曼

想要更多彭博观点吗？ OPIN <GO>****。 或订阅 我们的每日新闻简报。