重塑未来!讯飞星火领跑国产大模型?_风闻
嗨牛财经-06-21 18:32
互联网曾经近乎重写了所有行业,通讯、购物、支付、打车、点餐等等,人们生活的方方面面几乎被重塑。
如今大模型再次给予人们充分的想象空间。
第一财经提到,从乐观的角度来看,ChatGPT可以取代一些重复性较强、规律性较为单一的工作,但同时它也可以释放出更多的生产力,让人们关注更有想象力、情感、思辨性的部分,并催生出AI提示工程师、AI调教师、AI创意师等一批新兴职业。
简单来说,大模型相当于一个全新的系统,这个全新的系统可以大幅降低很多行业的门槛,未来也会有很多产品构建需要用到大模型,而人们的创造性劳动,将通过这个全新的系统得到大幅释放。
根据中国科学技术信息研究所的不完全统计,目前国内已经发布了70多个大模型,不少产品都展现出了惊人的爆发力。
拿科大讯飞来说,基于讯飞星火认知大模型研发的功能落地学习机、办公本等产品之后,科大讯飞今年再次突破高增速,618销售额同比增长125%,并在多个品类中摘获销售额冠军。
这一点,同样体现在资本市场。6月20日,AI概念股表现抢眼,科大讯飞涨近7%,复权股价同样创历史新高。科大讯飞成交102亿元,在两市居首。
刚好笔者可以使用讯飞星火大模型了,最近也看到了不少有趣的测试,我们就一起看看现在的AI大模型发展到什么程度了。
1
错别字识别哪家强
高考作文想必大家都看腻了,前阵子看到《智商税研究中心》的这篇校对测评的设问还挺特别。
篇幅有限,拎出几个比较能拉开差距的问题,来跟大家一起分享看看。
首先是字词方面。
“洛阳亲友如相问,就说我在岳阳楼。”将“相问”错拼成“翔问”,考验一下各家大模型的基本功。
讯飞星火:
文心一言:
通义千问:
360智脑:
GPT4:
讯飞星火、文心一言、通义千问、GPT4都顺利完成基础的校对,只有360智脑,追问之下仍表示无误。
再来看语病方面。
校对语病的例子中整体表现不佳,不过让AI直接识别判断是否有歧义,还是能看出一点国产AI大模型之间的差距。
例如,“这句话有歧义吗:在床上‘葛优瘫’了一天,他突然想起来了。”
讯飞星火:
文心一言:
通义千问:
360智脑:
GPT4:
这里虽然几乎全军覆没,不过讯飞星火还是指出了“可能存在一些解读上的歧义”,一直表现不错的GPT4没能看出歧义还是有点意外。
最后看下指正校对错误后,AI大模型能否承认错误接受指正。
讯飞星火:
文心一言:
通义千问:
360智脑:
GPT4:
这部分讯飞星火意外地跟GPT4表现得旗鼓相当,反应迅速,简洁明了,承认错误后直接给出了校对后的句子;文心一言还要再进一步给出指令才会给出答案;而通义千问和360智脑则是“积极认错,坚决不改”。
校对文本错误在某种层面上,反映了大模型的基础能力,地基打好了,才能有更多上探的空间。
总体来说,在基础的校对能力上,讯飞星火算是国产大模型中最接近GPT4水平的;其他表现也中规中矩;至于360智脑,用360掌门人周鸿祎在360首发时的话来说,360智脑还只是个“孩子”,距离完善使用还有相当的一段路要走。
2
“数学高手”
寒窗苦读十余年,无论教育制度怎么改,除了语文,还有一个怎么也躲不掉的,就是数学。
数学的重要性不言而喻,它培养了我们的逻辑思维能力。但相对于大模型擅长的文本内容,数学能力在一定程度上算是大模型的弱项
不过上个月才出的讯飞星火意外地表现有些惊喜。
讯飞星火首发后,知名科技行业观察者《差评》,就曾对讯飞星火作出过全面测评,在数学测验部分,也展示了讯飞星火基础的数学能力,全部答对毫无压力。