AI时代,内容继续为王_风闻
潘达SSR-04-19 10:00
随着大A市场对GPT概念炒作告一段落,我们可以冷静地坐下谈一谈GPT的未来了。
当下,全世界都在搞AI大模型的研发,而国内的大厂们,再次开启了老板亲自下场抓项目的时代。
上次老板们集体抓项目还在上次,而这次的集体抓AI自然说明了一个问题。
毫无疑问,未来是人工智能(AI)的时代,而GPT在这个时代,是AI应用的一个具体落地。

AI时代核心是能源和算力,能源核心是电力;算力核心是半导体、是信息技术、是语料。那么伴随着AI时代的到来,内容为王的时代将会再次到来。
而在这之前,第一个被卷死的是低质量的搬运型重复内容。
AI训练需要优质语料,大模型决定着GPT的智能度,而语料则决定着大模型训练的最终导向。百度文心一言刚面世时,最被诟病的都是其输出的内容体现,甚至被一度黑为披着Chat GPT的皮。
不过后面业内人士也帮忙发声澄清了,文心一言表现低下的原因是采用了大量的海外开源语料,因此有一定的水土不服。
一开始,文心一言的工作逻辑是,通过对开源语料的相关关键词进行翻译学习,从而输出内容的。因此,产生的内容大多数看起来像是关键词组合。不过随着训练的发展,这方面的问题显然会被改善。

文心一言作图,“说书人潘达”
当然,这个诟病也是可以理解的。毕竟大量的语料标注都是成本,而国内相关的语料训练还处于初级阶段。百度采用大量的海外开源语料进行模型训练,从成本方面考虑,属于合情合理。
基于大模型训练这个问题,优质的语料自然成为AI时代,各家训练大模型所必须要掌握的核心生产力。
那么,优质语料在哪里?
百度在推出文心一言时,通过和媒体、信息公司等内容产生方的合作,从一定程度上保障了内容的安全与可靠,也保障了基础的优质语料来源。
对于其他的大模型科技公司,自然需要另辟新径。毕竟在国内有个奇怪的现象就是大厂间相互排斥,甚至有老死不相往来的趋势。这对于内容的发展和模型的训练来说,是一个很大的弊端。

从常规来说,优质语料自然源于好的内容。语料处理机构,通过获得这些优质内容之后,进行加工、标注、识别,从而生成符合AI学习的语料。
而优质内容由两部分组成,一是高水平的创作者,他们有着活跃的思想和深刻的创意。可以成体系地输出深度内容。另一方面,则是没有版权壁垒所限制的内容传播。
高水平的创作者这个很好理解,毕竟人类最伟大的存在就是其独特思想的魅力。除非有一天,AI能输出像唐诗这样既有深度,又有内涵的产品。
从文字语言到机器语言这一过程中,还是有着足够的发展空间。在常规的知识库储备中,当下互联网优质内容并不少。但是,这些内容中,能跟得上AI这个新时代,匹配新时代的知识与内容并不多。
AI是一个新时代,代表着未来的先进生产力,与之相匹配的内容,自然不能是那些充满腐朽、落后气息的内容。

那么在庞大的内容库中,去发掘和匹配这些高质量内容,从而产出优质语料。成为发展AI大模型的一个必由之路。高水平的创作者和优质内容输出平台也将焕发新生命。
对于内容版权壁垒这个问题,我之前在《考验大厂们互联网精神的时候又到了》一文中有过一定讨论。核心就是,想要发展,企业们之间必须要通过数据确权、数据交易,从而实现优质内容、语料的流通,从而方便训练更优秀的AI大模型。
如此,掌握着优质内容、优质语料的人们,将在AI时代迎来第一波红利。