百度赶在发布前准备中国首个对标ChatGPT的产品——华尔街日报
Raffaele Huang and Karen Hao
百度计划分阶段推出文心一言,首先向限定用户群开放公开测试。图片来源:FLORENCE LO/REUTERS距离3月16日百度公司推出中国版ChatGPT仅剩一周之际,这家中国最大搜索引擎运营商的员工表示,他们正在争分夺秒赶工期,而这款聊天机器人目前仍难以实现某些基本功能。
知情人士透露,为开发这款名为文心一言的人工智能聊天机器人,数百人一直在昼夜不停地工作。他们表示,其他团队也被要求抽调人员和强大的计算芯片予以支持,由于美国的制裁,中国企业已无法购买这些芯片。
部分知情人士称,作为聊天机器人基础的AI模型在计划发布前仍在进行数据训练,这是中国科技行业备受期待的盛事。一些员工表示,他们没有足够时间打造功能完善的产品。高度期待的事件在中国科技行业,一些知情人士表示。部分员工称他们没有充足时间开发功能完善的产品。
百度计划分阶段推出该产品,首先向限定用户群开放公开测试,了解该计划的人士表示。上月百度曾宣布将先把文心一言嵌入搜索引擎,并于3月向公众开放。
百度CEO李彦宏对员工表示:“我们拥有如此酷炫的技术,但能否将其转化为人人需要的产品?“图片来源:孙一雷/路透社百度美国存托凭证周四下跌7.5%。纳斯达克中国金龙指数整体下跌5.4%。
这一热潮反映出百度正进行一场精心计算的豪赌,以领先于近期宣布类似计划的中国竞争对手。该公司表示已与400多家中国企业签署协议,这些企业将能在其产品和服务中使用文心一言。百度称,作为回报,该聊天机器人将获得不同场景下的运行经验以提升性能。
若成功推出,或助力这家近年失宠于投资者的公司重返中国顶尖科技企业行列。若失败,则可能重蹈谷歌覆辙——该巨头直到最近仍对AI持相对谨慎态度,在其AI聊天机器人搜索演示中出现事实性错误后,市值蒸发1000亿美元。
百度拒绝置评。
无论哪种结果,都可能影响百度与中国政府的关系,以及政府对能生成文本到图像内容的生成式AI技术的看法。
知情人士透露,百度开发聊天机器人的计划得到了其总部北京市政府官员的鼓励。文心一言很可能成为中国首个与旧金山人工智能研究公司OpenAI开发的ChatGPT抗衡的产品。中美两国一直在竞相增强各自在战略技术领域的实力。
这些人士表示,北京市政府还提醒百度确保其服务符合中国法律法规,包括数据收集和处理方面的规定,以及国家严格的互联网审查规则。
本周,中国科技部部长王志刚表示,开发类似ChatGPT的产品将很困难。
“踢足球不过是带球和射门,但要像梅西那样出色并不容易,“王志刚说,他指的是阿根廷运动员莱昂内尔·梅西。他补充说,中国长期以来一直在研究这一领域,但"我们还得拭目以待,看是否能取得像OpenAI那样的成果。”
多年来,百度投入巨资开发大型语言模型——支撑ChatGPT的技术——将谷歌和OpenAI的英文版本适配为中文。该公司在2019年发布了第一个模型,命名为文心”,此前谷歌将其模型命名为"Bert”——两者都引用了《芝麻街》中的名字。
去年12月下旬,随着ChatGPT的热度上升,百度首席执行官李彦宏向员工谈到了这一新进展。“我们有这么酷的技术,但我们能把它变成每个人都需要的产品吗?“根据《华尔街日报》看到的一份内部记录,他说,“这实际上是最难的一步,但也是最伟大、最有影响力的一步。”
据知情人士透露,1月初,百度高管要求其自然语言处理团队开始利用文心大模型整合开发类似ChatGPT的产品。
他们表示,该项目面临诸多挑战,其中许多是其他开发类ChatGPT技术的AI团队共同遇到的。一是通过训练模型区分具有多重含义的短语或可能指向多个人名的词语,使其更精准回应用户请求;二是让聊天机器人生成更接近人类自然语言的表达。
第三是提升事实准确性——这是大语言模型的技术瓶颈,其基于词汇共现概率而非事实信息来组织语句。该缺陷还导致模型难以规避敏感话题,形成内容审核障碍。
知情人士称百度已聘请外包团队协助审核优化聊天机器人的回答。
相关人员表示每个环节都需要时间。AI研究者指出,使用数千块芯片对这种量级的模型进行充分训练可能需要数周甚至数月。
据知情人士透露,本周工程师和产品经理正全力改进文心一言的基础功能,包括响应速度和搜索结果摘要生成等。
知情人士称,开发团队持续高强度工作,连1月底的春节长假也未间断。目前项目已从开发中英文双语聊天机器人调整为聚焦中文功能的版本。
知情人士透露,百度首席技术官王海峰负责监督文心一言的研发工作,主要由其技术开发部门(包含自然语言处理团队)及移动生态业务群组推进实施。部分人士表示,百度智能云事业群组提供了云计算支持。
为加速进程,高管们调集了更多资源。据知情人士称,春节假期后,李彦宏要求公司各AI团队(包括自动驾驶部门)调配最强算力芯片——英伟达A100显卡用于文心一言开发。美国去年底实施的芯片禁令禁止中国企业采购新型A100芯片。
部分人士表示,公司还抽调员工参与数据清洗工作**,**例如过滤低质量内容。另有消息称百度也聘请了外部团队进行数据清理。
知情人士称,时间紧迫令部分员工对文心一言能否满足用户或市场预期感到不安。有员工透露因此已在产品发布前抛售部分公司股票。
联系记者:黄瑞黎([email protected])与Karen Hao([email protected])
本文发表于2023年3月10日印刷版,标题为《百度全力打造ChatGPT竞品》