文心一言,甩开GPT-3.5,与GPT-4掰手腕?_风闻
智能相对论-智能和车,边评边测;未来和家,且品且鉴03-27 13:57
文|智能相对论
作者| 叶远风
“请写一个肯德基疯狂星期四的段子。”
“我女朋友的老公应该叫我什么?”
“XX微信群的群主与吴彦祖谁更帅?”
……
给几个搞怪的问题,戏耍一下,把答案贴出来,大家嘲讽一番。
在文心一言发布后,这种玩法直到今天还没有停止的意思。
可能连背后的技术与产品人员都没有想到,文心一言会以这样的方式火了下去。
作为国产版ChatGPT,文心一言在发布后,除了赞誉的声音,以各种形式被批判应该在意料之中,ChatGPT当初也是如此,这是产品不断进化要经历的过程。
只不过,在没有好坏的定论中,到底要给文心一言当下的技术水准定一个什么样的定义,并没有客观的、更加令人信服的结论。
起码,这种“戏耍”并不能反映多模态大模型所具备的能力。
ChatBOT固然可以闲聊,也应该支持用户随便闲聊,但闲聊互动不应该成为一款专业产品能力的最终评价标准。
光怪陆离的问题,就算去询问一个人类智者,得到的答案也是光怪陆离的。
现在来看,以某种更现实的视角去提出问题、实测答案,才更能体现出文心一言的能力和价值。
这种现实的视角应当有很多,其中,以企业信息需求为着眼点,会是其中之一。
这是因为,从文心系列大模型走向对话产品“一言”,或者,从GPT-3.5到GPT-4,ChatBOT最后都还是要走向商用、服务企业,创造专业价值的。
GPT-4发布后并没有公布其参数量,这被认为是走向商业化的准备,毕竟OpenAI制定的数亿美元营收目标现在快到4月份了还没太大动静。
而服务企业,要么提供“生产力”价值,这是ChatBOT场景垂直化后需要探索的内容,在各产业提供具体的工作能力;要么提供信息价值,通过类似“上帝之眼”的信息整合与逻辑梳理能力,帮助企业消除信息不对称,获取需要的信息。
目前ChatBOT的产业应用还未见,因此信息价值就成为可以客观评价的维度。
“智能相对论”团队获得了文心一言的内测账号,以及ChatGPT普通版本(基于GPT-3.5)与plus版本(基于GPT-4)的测试资格,尝试从企业信息获取维度,提出六个关联问题,从各答案中对比出文心一言的实际能力。
总体上,文心一言甩开GPT-3.5不成问题,与GPT-4能够掰手腕做到有来有回。
具体一个个分析,每个问题下,分别是文心一言、ChatGPT普通版、ChatGPT plus版的回答截图。
**01、****企业数字转型怎么找外部合作伙伴,**现在有哪些类型的伙伴可以选择?
可以看出,在三个回答中,只有文心一言提到了选择外部合作伙伴要注意到的几点,然后再例举可以找哪些类型的合作伙伴。
而ChatGPT普F通版、ChatGPT plus版都只是直接给出了类型。
这显示出,文心一言在算法上,相较与其他两个产品,对问题的潜在需求认识可能更加深刻。
02、企业应该怎样抓住新的市场机遇?
在这个问题的回答中,很显然,条目的多少,基本上决定了答案的质量。
对一个企业来说,要抓住市场机遇,就应该要找到更多的方法,考验的是ChatBOT整合信息并分门别类的能力。
在这里,文心一言超越GPT-3.5但略逊于GPT-4。
**03、****企业怎么招徕优质人才,**有哪些好用的渠道?
与上一个问题类似,条目的多少直观反映了chatBOT解决需求的能力。
文心一言远超GPT-3.5,并超越了GPT-4,再一次掰赢了手腕。
**04、****员工的工作效率很低,**怎么办?
这一局,相似的判断标准,文心一言继续领先GPT-3.5,但没有打赢GPT-4。
**05、****客户总是不回款,**有什么好的办法?
这个问题,由于各个回答都涉及了可能破坏企业与客户关系的行动,因此都进行了一次“打补丁”式的追问。