AI时代，内容继续为王_风闻

潘达SSR-04-19 10:00

2023-04-19

随着大A市场对GPT概念炒作告一段落，我们可以冷静地坐下谈一谈GPT的未来了。

当下，全世界都在搞AI大模型的研发，而国内的大厂们，再次开启了老板亲自下场抓项目的时代。

上次老板们集体抓项目还在上次，而这次的集体抓AI自然说明了一个问题。

毫无疑问，未来是人工智能（AI）的时代，而GPT在这个时代，是AI应用的一个具体落地。

AI时代核心是能源和算力，能源核心是电力；算力核心是半导体、是信息技术、是语料。那么伴随着AI时代的到来，内容为王的时代将会再次到来。

而在这之前，第一个被卷死的是低质量的搬运型重复内容。

AI训练需要优质语料，大模型决定着GPT的智能度，而语料则决定着大模型训练的最终导向。百度文心一言刚面世时，最被诟病的都是其输出的内容体现，甚至被一度黑为披着Chat GPT的皮。

不过后面业内人士也帮忙发声澄清了，文心一言表现低下的原因是采用了大量的海外开源语料，因此有一定的水土不服。

一开始，文心一言的工作逻辑是，通过对开源语料的相关关键词进行翻译学习，从而输出内容的。因此，产生的内容大多数看起来像是关键词组合。不过随着训练的发展，这方面的问题显然会被改善。

文心一言作图，“说书人潘达”

当然，这个诟病也是可以理解的。毕竟大量的语料标注都是成本，而国内相关的语料训练还处于初级阶段。百度采用大量的海外开源语料进行模型训练，从成本方面考虑，属于合情合理。

基于大模型训练这个问题，优质的语料自然成为AI时代，各家训练大模型所必须要掌握的核心生产力。

那么，优质语料在哪里？

百度在推出文心一言时，通过和媒体、信息公司等内容产生方的合作，从一定程度上保障了内容的安全与可靠，也保障了基础的优质语料来源。

对于其他的大模型科技公司，自然需要另辟新径。毕竟在国内有个奇怪的现象就是大厂间相互排斥，甚至有老死不相往来的趋势。这对于内容的发展和模型的训练来说，是一个很大的弊端。

从常规来说，优质语料自然源于好的内容。语料处理机构，通过获得这些优质内容之后，进行加工、标注、识别，从而生成符合AI学习的语料。

而优质内容由两部分组成，一是高水平的创作者，他们有着活跃的思想和深刻的创意。可以成体系地输出深度内容。另一方面，则是没有版权壁垒所限制的内容传播。

高水平的创作者这个很好理解，毕竟人类最伟大的存在就是其独特思想的魅力。除非有一天，AI能输出像唐诗这样既有深度，又有内涵的产品。

从文字语言到机器语言这一过程中，还是有着足够的发展空间。在常规的知识库储备中，当下互联网优质内容并不少。但是，这些内容中，能跟得上AI这个新时代，匹配新时代的知识与内容并不多。

AI是一个新时代，代表着未来的先进生产力，与之相匹配的内容，自然不能是那些充满腐朽、落后气息的内容。

那么在庞大的内容库中，去发掘和匹配这些高质量内容，从而产出优质语料。成为发展AI大模型的一个必由之路。高水平的创作者和优质内容输出平台也将焕发新生命。

对于内容版权壁垒这个问题，我之前在《考验大厂们互联网精神的时候又到了》一文中有过一定讨论。核心就是，想要发展，企业们之间必须要通过数据确权、数据交易，从而实现优质内容、语料的流通，从而方便训练更优秀的AI大模型。

如此，掌握着优质内容、优质语料的人们，将在AI时代迎来第一波红利。