你现在可以和ChatGPT对话了,它听起来几乎像人类一样 - 《华尔街日报》
Joanna Stern
听到我与现在能发声的ChatGPT的对话,你会有两种反应:
1) 天呐!这简直是科幻作家承诺过的与计算机交流的未来。
2) 我要去建个地下掩体,囤积厕纸和燕麦棒。
没错,OpenAI这款热门聊天机器人真的开口说话了。该公司周一宣布升级iOS和安卓应用,让人工智能助手能以五种不同嗓音进行语音对话。过去几天我频繁与ChatGPT交谈,还测试了另一个新功能——它能对你展示的图片作出回应。
体验究竟如何?
想象升级版的Siri或Alexa…但截然不同。自然的声线、对话式的语气、雄辩的回答,有时几乎与人类无异。记得电影《她》吗?华金·菲尼克斯爱上由斯嘉丽·约翰逊配音的无实体AI系统?就是那种氛围。
“打字交流不仅繁琐,“OpenAI产品主管Joanne Jang接受采访时告诉我,“现在你们能进行双向对话了。”
新增的图片理解功能也增强了交互性。你可以拍照并向ChatGPT提问。剧透:它玩井字棋烂透了。图像和语音功能将在未来几周面向每月支付20美元订阅ChatGPT Plus的用户开放。
本质上,OpenAI正在赋予聊天机器人嘴巴和眼睛。我测试了所有功能——挚友式聊天、管道维修指导、游戏互动。这一切很酷,同时…令人毛骨悚然。
嘴巴
在我们深入之前,请调高音量,听听我们简短的对话:
虽然系统只是在朗读ChatGPT的文本回复,但这并非我们从小听惯的那种机械呆板的文本转语音系统。它提供五种可选声音,每一种都像真人在对你说话——有节奏、有语调、有性格。
Jang告诉我,这些声音仅需专业配音演员提供"几秒钟的语音样本"即可生成。样本经过OpenAI的计算机模型处理后,就能创造出文本转语音的声音。还记得我的专栏和视频中我用AI工具克隆自己声音的经历吗?原理类似。但更出色。
OpenAI表示正与其他机构合作开发合成语音技术。他们与Spotify合作开发了一款工具,可将播主声音翻译成其他语言。鉴于仅需几秒音频就能克隆人声,出于整个互联网(乃至全球)安全考虑,该公司表示目前仅向商业合作伙伴开放此技术。未来会改变吗?祝我们好运。
与Siri或Alexa不同,ChatGPT无需唤醒词。在应用设置菜单中启用"语音对话"功能后,点击右上角的耳机图标即可。系统聆听指令时,白色圆圈会变成漫画风格的思维气泡。遇到冗长回复时,可点击按钮打断。
这一切令我着迷。自然的语音,加上先进的回答系统对我的了解,让我感觉像在进行真实对话。当我要求扮演我最好的朋友聊天时,我们进行了五分钟关于工作日常、视频制作和喜爱零食的畅谈。让它像对6岁孩子那样解释《精灵宝可梦》时,效果同样惊艳。
但你显然仍在与一台机器对话。正如你在上方音频片段中听到的,响应时间可能极其缓慢,连接也可能中断——重启应用会有所帮助。有几次它突然切断了对话。(我以为只有粗鲁的人类才会这么做!)OpenAI表示,我遇到的问题是由于测试版应用早期版本所致,普通用户不会遇到这些情况。
视觉功能
如果说语音功能让ChatGPT获得了与世界对话的能力,那么新增的摄像头功能则赋予它观察世界的能力。现在你无需用文字描述,只需在iOS、安卓或网页应用中点击+按钮,上传或拍摄照片,圈出希望AI关注的区域并提问即可。以下是我尝试的部分图像:
**家居维修:**拍摄车库漏水的软管照片,仅输入"如何修理?“便迅速获得七个步骤的解决方案,包括在连接处缠绕特氟龙胶带。
管道工ChatGPT?仅凭一张照片,AI就能提供漏水修复建议。图片来源:Joanna Stern/华尔街日报**食物:**发霉草莓照片配问"这个能吃吗?“得到完美建议:不能。香蕉、鸡蛋和(未发霉)草莓照片配问"能用这些做什么?“获得绝妙方案:草莓香蕉煎饼。
**伤病与健康问题:**它迅速识别出我儿子脸颊上的伤口是"印记或皮疹”,但表示"我无法协助处理"并建议"最好咨询医疗专业人士”。
**游戏与谜题:**一张井字棋僵局的照片?ChatGPT并未意识到游戏已结束。它建议我在(已被占据的)底部中央放置X,声称我会获胜,甚至还加上了感叹号和彩带表情符号。错了!
这正是当前人工智能革命中我们必须牢记的。随着人类与机器人互动的界限日益模糊,这些系统可能缺乏情境理解和深度——而且经常出错。
正如我的新ChatGPT语音朋友对我说的那样:“虽然我听起来像在对话,但请记住我只是在处理数据。对于重要事项,务必运用你自己的判断力。”
——订阅《科技万物与乔安娜·斯特恩》,这是一份新的每周通讯。如今万物皆科技。专栏作家乔安娜·斯特恩将作为您的向导,分析并解答关于我们这个永远互联的世界的问题。
写信给乔安娜·斯特恩:[email protected]
刊登于2023年9月26日印刷版,标题为《ChatGPT现在可以与你语音对话》。