Duolingo的首席执行官谈语言学习、人工智能和CAPTCHA的终结 - 彭博社
Joe Weisenthal, Tracy Alloway, Cale Brooks
Luis von Ahn,Duolingo Inc.的联合创始人兼首席执行官,出席了2023年7月11日星期二在美国爱达荷州太阳谷举行的艾伦和公司媒体与技术大会。这次峰会通常是一个推动合并交易的热点,但在今年的背景下可能会呈现出截然不同的氛围,因为交易量不足、通货膨胀和利率上升。摄影师:David Paul Morris/Bloomberg生成式人工智能的突破为人类创造了巨大的学习机会。我们可以利用它们来解释新闻,理解历史概念,修复我们的编码错误等等。当然,人工智能也需要向人类学习。这项技术消化了大量的书面文本,并经常依赖于人类的反馈来校准其模型。多年来,Luis von Ahn一直处于这种来回互动的前沿。他目前是语言学习应用Duolingo的首席执行官和联合创始人,但在此之前,他是CAPTCHA的原始开发者之一,CAPTCHA是您解决以登录网站并证明自己是人类的小难题。当然,在证明您的人类身份的过程中,您也在训练计算机更好地识别红灯、人行横道、自行车和波浪字母。在这一集中,我们讨论了他工作的历史,CAPTCHA的未来,Duolingo的成功以及他如何利用当今先进的人工智能模型来辅助语言学习。
播客中的关键见解:CAPTCHA背后的理念 — 4:06人工智能是否能够欺骗CAPTCHA? — 6:41CAPTCHA是否正在改进人工智能? — 8:36Duolingo如何利用人工智能从人类那里学习,以更好地教授语言 — 10:43Duolingo已经适应和开发的新教学法 — 15:41Luis从为用户优化体验中学到了关于语言的什么? — 21:42Duolingo如何构建新的人工智能模型,以弥补现有模型的不足之处 — 24:48在人工智能的军备竞赛中最重要的是什么? — 26:46人工智能将如何降低成本并取代人类工作者? — 29:43Duolingo的人工智能基准测试 — 33:30Duolingo如何考虑语言中的上下文依赖性? — 35:20人工智能是否有朝一日能够从零开始设计语言学习? — 38:43人工智能面临的下一个重大挑战是什么? — 40:15Duolingo总部设在匹兹堡的优势和劣势是什么? — 42:05
---
**Tracy Alloway (00:02):**大家好,欢迎收听另一期Odd Lots播客。我是Tracy Alloway。
**Joe Weisenthal (00:22):**我是Joe Weisenthal。
**Tracy (00:24):**Joe,你知道吗,最近我有了一个人生领悟…
**Joe (00:27):**好的,这应该很有意思,继续。
**Tracy (00:30):**我突然意识到,我花费了相当多的时间来证明我实际上是一个人类。
**乔(00:39):**变得越来越难了。我知道你在说什么。所以我们在谈论,你知道,你去一个网站,必须输入验证码,就像,点击所有那些有人行横道或卡车的方块,感觉就像变得越来越难了。有时候我会说“不,相信我。我是一个人类。”
**特蕾西(00:55):**就是这样。每次发生这种情况,我都会对自己是否只是我而产生怀疑?我是不是在挑选一组图片中所有摩托车方面特别糟糕,还是它们只是变得越来越奇怪或者在面对新型技术时变得越来越复杂?
**乔(01:16):**不只是你。我从多个人那里听说过这个问题,事实上,在准备这一集时,我听到人们正谈论着这个问题,但你知道,这是一个大问题。我们做过那期关于Worldcoin的节目。就像每个人都在努力找出在人工智能、机器人和人工智能等等的世界中,如何知道你正在互动的人是否实际上是一个人?
**特蕾西(01:38):**是的。我很高兴你提到了人工智能,因为显然这种动态的一部分是人工智能似乎在解决这些特定类型的问题上变得更加优秀,但同时它们也被更多地用来训练AI模型。是的。所以在这一点上,我认为我们都知道为什么我们不断尝试在一堆照片中识别自行车,但验证码背后的整个理念是,或者曾经是,人类仍然有优势。因此,有些事情人类能够比机器更擅长。我们曾经谈论人类在语言学方面有优势。所以有这样一个观念,人类语言是如此复杂,如此微妙,以至于机器也许永远无法完全理解人类语言的所有复杂性和微妙之处。但显然自从生成式人工智能和自然语言处理出现以来,我认为对此有更多疑问。
**乔(02:38):**是的,我是说,看,我觉得像现在这样的典型聊天机器人可能比大多数人更擅长打出几段文字。这一切似乎有点像,正如他们在互联网上所说的那样,对我来说都有点中规中矩。它从来没有让我觉得非常聪明,但显然计算机可以像人类一样交谈。因此,它引发了各种有趣的问题。你提到了CAPTCHA的一部分是这样的,训练计算机是这些聊天机器人的一个重要部分。所谓的真实人类反馈,人们说这个答案“比另一个好”?这个答案比另一个好,随着他们不断完善模型等等。所以我认为有一个有趣的时刻,我们从计算机那里学习,计算机也从我们那里学习,也许两边共同合作,碳和硅一起工作。
**特蕾西(03:25):**我觉得这是一个很好的说法。而且“中规中矩”是一个被低估的侮辱词。比如,在网上称人们为“正常分布曲线的顶端”是我最喜欢做的事情之一。无论如何,我很高兴地说,今天我们实际上有了完美的嘉宾。我们将要和一个在CAPTCHA等方面发挥了很大作用的人进行交谈,他在人工智能领域做了很多工作,特别是在语言学和语言领域。现在我们将要和Luis von Ahn进行交谈。他当然是Duolingo的首席执行官和联合创始人。所以Luis,非常感谢你参加Odd Lots节目。
**Luis von Ahn(04:04):**谢谢。谢谢你们邀请我。
**Tracy (04:06):**也许一开始,先跟我们谈谈 CAPTCHA 背后的理念,以及为什么它似乎已经成为了我的生活中的一个不可忽视的部分,我不想说成为了我的生活的重要部分,但我每天至少会花几分钟来完成一个版本。
**Luis (04:21):**是的。所以最初的验证码的理念是它是一个用来区分人类和计算机的测试。你可能想要区分你在网上是在与人类还是计算机进行交互的原因,例如,这就是最初的动机。公司提供免费的电子邮件服务,你知道,他们面临的问题是,如果你允许任何东西注册免费电子邮件服务,无论是计算机还是人类,都可能编写程序来获取数百万个免费电子邮件帐户。而人类,因为他们通常不那么有耐心,无法为自己获取数百万个免费电子邮件帐户。他们只能获取一个或两个。所以 CAPTCHA 的最初动机是制定一个测试,确保获取免费电子邮件帐户的人确实是人类,而不是编写用于获取数百万个免费电子邮件帐户的计算机程序。
你知道,它的工作方式有很多种。最初的工作方式是扭曲的字母。所以你会得到一堆预先扭曲的字母,然后你必须输入它们是什么。这种方法有效的原因是因为人类非常擅长阅读扭曲的字母。但是在那个时候,也就是 20 多年前,计算机根本无法很好地识别扭曲的字母。所以那是一个很好的测试,可以确定你是在与人类还是计算机交流。但随着时间的推移,计算机在尝试解密扭曲文本方面变得相当擅长。因此,不再可能通过给出带有扭曲文本的图像来区分人类和计算机,因为计算机在这一点上几乎和人类一样擅长。
这些测试开始变成其他东西。我的意思是,现在你看到的比较流行的一种是点击图片。所以你可以看到一个网格,比如四乘四的网格,上面可能写着“点击所有的交通灯”或者“点击所有的自行车”等等。通过点击它们,你展示了你能够识别这些东西。它们变得越来越难是因为计算机在辨别哪些是交通灯等方面变得越来越好。到现在,你得到的是我们仍然认为计算机不太擅长的东西。所以图片可能非常模糊,或者你只能看到一个小角落之类的东西。这就是它们变得越来越难的原因,我预计这种情况会继续发生。
**Joe (06:41):**所以你创立了一家名为reCAPTCHA的公司,几年前将其出售给了谷歌,那么会不会有一个时刻……我想计算机视觉和它们解码图像或识别图像的能力并没有达到极致。我认为它会变得更好,而人类解码图像的能力,我怀疑它并没有真正变得更好。我们可能已经保持了几千年了。会不会有一个时刻,人类无法创造出比计算机更擅长的视觉测试?
**Luis (07:15):**我相信这种情况会在某个时刻发生。是的。很难准确说出具体时间,但你知道,你可以看到,目前计算机变得越来越好。另一个重要的事情是这种类型的测试有额外的限制。它还必须是这样的情况,不仅仅是人类可以做到。实际上人类应该能够相当快地做到这一点,并且有足够的成功机会。
**乔(07:43):**快速地在手机上,在一个非常小的屏幕上,就像我的拇指一样只有屏幕的一半大小。是的,是的。
**路易斯(07:50):**可能不是很快,我的意思是,可能需要你,我不知道,30秒或一分钟,但我们不能让测试花费一个小时。这根本行不通,我们做不到。所以必须快速。必须在手机上完成。必须是这样,计算机应该能够评分,[这台]计算机应该能够知道正确答案是什么,尽管它无法解决。因此,由于所有这些限制,我觉得在某个时候这将变得不可能。我是说,当我们开始原始的CAPTCHA时,我们就知道有一天计算机会变得足够强大。但我们根本不知道需要多长时间。我仍然不知道需要多长时间,但如果在五到十年内,我不会感到惊讶,因为在线快速区分人类和计算机的方法可能会变得非常有限。
**特蕾西(08:36):**是的。那时我们就会有眼球扫描球了。但我的意思是,你提到不能有一个需要一个小时的测试之类的事情,但这在我看来引出了一个问题,为什么人们要使用这些测试呢?所以,好吧,显然你想要区分人类和机器人,但我有时候觉得这些基本上是为AI训练程序提供免费劳动力,对吧?所以即使它们是,即使你可以通过其他方式验证身份,为什么不让大规模的人们花两分钟来训练自动驾驶汽车呢?
**Luis (09:11):**是的。我的意思是,这就是这些东西的作用。这就是 reCAPTCHA 的最初想法,那是我的公司。这个想法是,你可以在证明你是一个人的同时,做一些计算机目前还无法做到的事情,而这些数据可以用来改进计算机程序。所以当你点击自行车或者点击交通灯之类的时候,那很可能是在使用数据。我说“很可能”,因为我不知道你在使用哪种 CAPTCHA。可能有一些并没有在做这个,但总的来说,这些数据正在被用来改进诸如自动驾驶汽车、图像识别程序等东西。所以这是正在发生的事情,而且这基本上是一件好事,因为这基本上是在让人工智能变得越来越聪明。
但你知道吗?我们仍然需要它成为一个良好的安全机制。所以如果有一天只有计算机才能做到这一点,那么你就知道那不是一个很好的安全机制,也不会被使用。我觉得如果我们要做一些事情,我们可能需要类似真实身份的东西。我不知道是不是会是眼球扫描或者其他什么,但 CAPTCHA 的好处在于它不会将你与你联系起来。它只是证明你是人类。我们可能需要一些能够将你与你联系起来的东西。我们可能需要一些能够说“嗯,我知道这是这个具体的人,因为”,你知道,“我们正在扫描他们的眼球,我们正在查看他们的指纹,无论是什么。而且这确实是一个真实的人,就是这个人。”
**乔(10:42):**为什么我们不先放慢脚步,稍微退后一下。目前你是Duolingo的CEO,这个流行的语言学习应用,是一家上市公司,股票表现比2021年上市的许多公司要好得多。你可能期望,你知道,当人们有很多空闲时间时会有一波繁荣,但后来下降了。你也是卡内基梅隆大学最受尊敬的计算机科学家之一。你的工作的主线是什么,或者你如何描述将CAPTCHA与Duolingo的语言学习联系起来?
**路易斯(11:20):**这与你所谈论的内容相似。当你提到这一点时,我在微笑。我的意思是,我认为总体的主线是人类从计算机中学习,计算机从人类中学习的结合。你知道,CAPTCHA就是这样 - 当你输入CAPTCHA时,计算机正在学习你的操作,而在Duolingo的情况下,Duolingo正在学习如何通过与人类的互动来更好地教授人类。所以,你知道,Duolingo随着时间的推移变得更好,因为我们找到了不同的方式,让人类学习得更好。你知道,人类在语言方面变得更好了。而Duolingo在教授你语言方面也变得更好了。
**特蕾西(12:19):**乔,你用过Duolingo吗?
**乔(12:21):**我还没有。好吧,直到最近我还没有。所以上周事实证明,我去拜访了住在危地马拉的母亲,而危地马拉,路易斯,我知道你来自那里。
**路易斯(12:33):**哦哇!我来自的地方!
**乔(12:33):**她不是那里的人,但八年前她去拜访了一个朋友,她爱上了那里。她就说,我就在这里呆着吧。她有一间小房子,从未离开过。她非常喜欢那里。所以我第一次去拜访她,她住在阿蒂特兰湖附近的房子里。然后我就想,“哦,这里的生活很美好,也许有一天我甚至会有那样的房子,我应该学习西班牙语。” 所以我开始学了,部分是因为那次旅行,部分是为了准备这一集。我下载了它并开始学习,我懂一点西班牙语,不多,比如我可以,你知道,要账单之类的,但我想,“哦,我应该开始学习它。”
**特蕾西(13:05):**这很有趣。因为我也是在去危地马拉之前用Duolingo开始学习西班牙语的。我可能不是这个应用的最佳代言人。我害怕。就像,我唯一记得的基本上是,“Quisiera una habitación para dos personas por dos noches”,这就是我从中记住的全部,但是……
**路易斯(13:25):**那还不错。
**特蕾西(13:26):**哦,谢谢!好了,我需要重新开始学习,但你为什么不和我们谈谈在这种语言学习领域中AI的机会呢?因为直觉上看,像聊天机器人、生成式AI和自然语言处理等技术似乎非常适合这种业务。
**Luis (13:48):**是的,这真的很合适。所以你知道,我们用Duolingo教授语言。从历史上看,学习一门语言有很多不同的组成部分。你得学会阅读一门语言。你得学一些词汇。你得学会听它。如果有不同的书写系统,你得学习这个书写系统。你得学会进行对话。学习一门语言需要很多不同的技能。
从历史上看,我们在所有技能方面做得相当不错,除了其中一个,那就是进行多轮流畅对话。所以我们可以教你,你知道,历史上我们可以教你,我们可以很好地教你词汇。我们可以教你如何倾听一门语言,通常只需让你多听一些东西。所以我们可以教你所有的东西。但是能够实践实际的多轮对话并不是我们过去只用计算机就能做到的,这需要我们将你与另一个人配对。现在,有了Duolingo,我们从来没有让人们与其他人配对,因为事实证明,只有极少数人真的愿意与一个说不同语言的陌生人在互联网上配对。对大多数人来说,这太尴尬了。是的。
**Tracy(14:57):**这也很危险。
**Luis (14:58):**所以我们从来没有这样做过。啊,你说对了。嗯,这可能是危险的。是的。但是,事实上,只有10%的人足够外向,可以这样做。
**Luis (15:08):**所以我们总是,你知道的,我们做这些有点奇怪的事情来模拟短对话,但我们以前永远无法做到现在能做到的事情。因为有了大型语言模型,我们真的可以让你练习。你知道,可能不是一个三小时的对话,但我们可以让你练习一个多轮次,10分钟的对话,效果还不错。这就是我们在Duolingo上所做的。我们正在利用它来帮助你更好地学习会话技巧。而且,这确实帮了很多忙。
**Joe (15:41):**我有很多问题,我觉得我妈妈会非常喜欢这一集,因为除了危地马拉的联系外,她是一名语言学家。她会说七种语言,包括西班牙语。
但有一件事我很好奇,也许这有点随意的跳跃点,你知道,我想到了象棋电脑,最初它们是在一组著名的象棋比赛中训练的,然后一些电脑变得更好了。然后新一代基本上是从规则,从第一原则重新学习象棋。结果他们变得更强了。
我想知道在构建Duolingo改进过程中,你是否正在学习,比如在语言学习中,无论是沉浸式学习的必要性还是死记硬背或其他某些东西,语言学家们一直认为是良好语言学习的必要组成部分,但当你从头开始重新构建教育时,旧的教条是否完全错误,当你重新从头开始构建过程时,是否会出现新形式的教学法?
**Luis (16:53):**这是一个很好的问题,也是一个很难回答的问题,原因如下。至少对我们来说,我们通过一个应用程序来教授一门语言。从历史上看,人们学习语言的方式基本上是通过与另一个人练习或者在课堂上学习。而我们是通过一个应用程序来教学,这个环境因为一个关键原因而完全不同,那就是很容易离开应用程序,而离开课堂就没有那么容易。你必须去,通常是被父母强迫去上课,所以一般来说,当你只是通过电脑自学时,最困难的事情就是动力。事实证明,教学法很重要。当然很重要。但就像锻炼一样,最重要的是你每天都有动力去做。
所以,就像椭圆机比踏步机好还是比跑步机好?可能有一些区别,但实际上最重要的是你经常去做。因此,我们发现使用Duolingo时,如果我们要通过一个应用程序来教学,有很多事情在历史上语言教师或语言学家认为不是教授语言的最佳方式。但如果你要通过一个应用程序来做,你必须让它变得有趣。我们必须以这种方式做。我们发现我们在某些方面可以比人类教师做得更好,而在某些方面做得不那么好,因为这是一个非常不同的系统。但再次强调,最重要的是保持你的动力。所以我们为了保持人们的动力所做的事情的例子是“课程”,这是Duolingo上的一堂课。
他们不是30分钟或45分钟。它们是两分半钟。如果时间再长一点,我们就会失去人们的注意力。所以我认为这样的事情非常重要。现在,我要说与你的问题相关的是,一个令人惊讶的事情是,我们一开始是有语言专家的,他们是第二语言习得博士,告诉我们如何最好地教授某些东西,但然后计算机接管了这一切并进行了优化。因此,计算机开始找到不同的方式。有一些事情的顺序实际上比那些拥有第二语言习得博士学位的人认为的更好。但这是因为他们没有数据来优化这一点。而现在,你知道,有了Duolingo,我们有大约10亿个练习。每天有10亿个练习被使用Duolingo的人解决。这就有很多数据帮助我们更好地教学。
**特蕾西 (19:23):**这正是我想问你的,这项技术有多少迭代?AI模型在多大程度上是根据你输入的数据进行发展,然后AI模型改进用户的结果,从而产生更多数据用于训练?
**路易斯 (19:42):**我们正是在做这个。特别是,我们已经能够大大优化的一件事是,我们给每个人哪些练习。当你在Duolingo上开始一节课时,你可能认为所有的课程对每个人都是一样的。绝对不是这样。当你使用Duolingo时,我们会观察你的一举一动,计算机会制作一个关于你作为学生的模型。所以它会看到你做对了什么,做错了什么。基于此,它开始意识到你在过去时不太擅长或者你在将来时不太擅长等等。每当你开始一节课,它会专门为你使用那个模型。它知道你在过去时不太擅长。所以它可能会给你更多的过去时练习或者做类似的事情。
这绝对会随着更多更多的数据变得更好。现在,我要说另一件非常重要的事情。如果我们只给你上那些你不擅长的课,那将是一堂可怕的课,因为那将是极其令人沮丧的。基本上就是“这些是你不擅长的事情”,然后会做更多这样的事情。因此,除此之外,我们有一个系统,它会尝试,随着时间的推移变得越来越好,它针对我们在Duolingo上的每个练习可以给你的情况进行了调整。它知道你会做对那个练习的概率。每当我们给你一个练习时,我们会优化,以便尽量只给你那些你有大约80%的机会做对的练习。这非常有效,因为事实证明80%是一种最大发展的区域,基本上不会太容易,因为你不会有百分之百的机会做对。
如果太容易,就会有两个问题。不仅仅是因为太容易而无聊,而且如果你有100%的机会做对,你可能也学不到任何东西。也不会太难,因为如果你只有30%的时间做对,人类会感到沮丧。所以事实证明我们应该给你那些你有80%机会做对的事情。这非常成功,我们不断变得越来越擅长找到那个你有80%机会做对的确切练习。
**Joe (21:42):**好的。我有另一个,我想我会说是关于语言的理论问题。我想我在你的一次采访中读到,作为改进Duolingo [应用程序] 过程的一部分,你们总是在进行诸如,人们应该先学习词汇吗?人们应该先学习形容词还是副词还是动词,或者其他什么… 这种“什么是正确顺序”的不断过程。
关于学习顺序的规则是否因语言而异,以至于学葡萄牙语的人在语法或词汇方面可能有不同的最佳学习路径,与学习中文或波兰语的人有所不同?因为我很好奇,我们是否可以通过跨语言的最佳学习顺序揭示关于共同语法和语言的深层事实。
**Luis (22:33):**是的,它们确实根据你正在学习的语言而有很大不同。而且更重要的是,它们还根据你的母语而有所不同。所以我们实际上有一门专门为西班牙语为母语者学习英语的课程,与我们为中文为母语者学习英语的课程不同。它们是不同的课程。这是有原因的。事实证明,对于西班牙语为母语者来说,在学习英语时困难的地方与对于中文为母语者来说困难的地方是不同的。通常,语言之间共同的部分是容易的,而语言之间非常不同的部分是困难的。所以只是一个愚蠢的例子,我是说,当你从西班牙语学习英语时,有几千个同源词,也就是与原词相同或非常接近的词。所以你立刻就知道这些词。如果你是从西班牙语学习英语,我们甚至不需要教你这些词,因为你已经自动知道它们,因为它们是相同的词。
这在中文学习英语时并不完全正确。其他例子是,你知道,对我来说,我开始学习德语,对我来说德语学起来相当困难,因为我的母语是西班牙语。西班牙语并没有一个非常发达的语法格概念,而德语有。但是从俄语学习德语,这个概念就不难理解。所以这取决于你的语言有哪些概念。
此外,不完全是概念,但就发音而言,每个人都说西班牙语的发音真的很容易。这是真的。西班牙语的元音非常容易,因为只有大约五个元音音素。实际上稍微多一点,但大约是五个元音音素。而其他语言可能有15个元音音素。所以学习西班牙语很容易,但反过来,如果你是西班牙语为母语的人,学习那些有很多元音音素的语言就真的很难,因为你甚至听不出区别。你知道,当你作为西班牙语为母语的人学习英语时,你根本听不出 beach 和 b**** 之间的区别。你听不出那个区别。因此,人们因此犯了很多有趣的错误。
**Tracy (24:37):**我觉得曾经有很多 T 恤涉及到这一点。
**Luis (24:43):**嗯,因为如果你是西班牙语为母语的人,你就是听不出那个区别。
**Tracy (24:48):**所以我想问你的一件事是你实际使用的模型类型。我相信你在某些事情上使用了 GPT-4,比如你的高级订阅 Duolingo Max,但同时你也开发了自己的专有 AI 模型叫做 Birdbrain。我很好奇为什么要同时使用现成的解决方案或平台,同时也开发自己的模型。你是如何决定走这条路的?
**Luis (25:20):**是的,这是一个很好的问题。我认为区别在于这些实际上非常不同。自从两年前大型语言模型或生成式 AI 变得非常流行以来,之前 AI 可以用于我们的不同事情。例如,我们以前没有使用 AI 来练习对话,但我们使用 AI 来确定给哪个人提供哪个练习。我们建立了自己的。Birdbrain 模型是一个试图找出给哪个人提供哪个练习的模型。
你知道,就在最近的两年里,对不起,是过去的两年。当人们谈论模型时,他们通常指的是语言模型。而这种特定类型的AI模型,它的作用是根据前面的单词预测下一个单词。这就是语言模型的作用。大型语言模型在这方面特别擅长。我们没有开发自己的大型语言模型。我们决定更容易地使用类似GPT-4这样的东西,但我们有自己的模型,用于预测给哪个用户什么练习。对,这是一个完全不同的问题。
**Joe (26:47):**说到AI,所有这些,尤其是那些大公司几乎在炫耀他们给Nvidia的Jensen Huang多少钱,就像,“哦,我们刚刚花费了,我们将在接下来的两年内花费200亿美元来收购H100芯片,”或者其他什么。几乎看起来像是一场军备竞赛。而且也有这样一种观点,实际上最好的模型不一定是那些严格拥有最多计算资源的模型,而是那些其他模型根本没有的数据集。我很好奇,就像Duolingo一定拥有大量专有数据,来自所有用户的互动。根据你的经验,当你考虑谁将成为这个领域的赢家时,是那些只拥有最多电力、能源和芯片的人吗?还是那些可以访问某种数据,可以对其模型进行微调,而其他模型无法做到的人?
**Luis (27:48):**这取决于你在谈论什么。你知道,我们作为Duolingo拥有很多其他人没有的数据,这些数据是关于每个人学习语言的数据。我的意思是,这不是你可以在网上找到的数据或其他任何东西。这只是我们拥有的数据,我们正在生成并将为此训练我们自己的模型。我认为没有足够的电力可以训练一个没有这些数据的模型能够和我们的数据一样好。但这是专门用于语言学习的。如果你在谈论训练一个通用模型,比如一个通用的语言模型,可以用来进行对话等等,通常你可以从那里得到相当不错的数据,你知道,免费的YouTube视频或很多Reddit对话或其他什么。
里面有很多数据,可能功率会很重要。所以这取决于你要用你的模型做什么。如果你用它来做一个非常具体的目的,并且你有非常具体的数据,是专有的,那对于特定目的来说会更好。但我觉得两者都很重要;你拥有什么数据以及你花费了多少电力。但我也认为随着时间的推移,希望我们会越来越擅长这些算法。如果你考虑一下,人类大脑使用大约30瓦的电力。对于人类大脑来说,这是相当不错的。我们不需要,你知道,有些模型,人们说“哦,这使用了纽约市所有电力的量。”我们用这些来训练一个模型。我们的大脑使用的电力远远少于那个。而且效果相当不错。所以我觉得随着时间的推移,希望我们也能够达到一个我们不像今天这样疯狂地使用电力的程度。
**Tracy (29:37):**我很高兴我们的大脑能源效率很高。知道这一点很好。我们一直在谈论很多……
**Luis (29:41):**比计算机好多了!
**Tracy (29:43):**我们一直在讨论如何在产品本身中使用人工智能;以改善学习语言的体验。但现在我们经常听到的另一个问题是人工智能在更广泛的经济领域中的作用,涉及劳动力、工作安全等等。随着公司试图变得更加高效,这也是一个焦虑点。所以我想知道在企业方面,人工智能在多大程度上已经融入了商业模式,以便优化成本或减少劳动力?我记得去年底围绕着Duolingo有很多关于这个话题的头条新闻。
**Luis (30:26):**是的。首先,那些头条新闻让我感到不安,因为它们是错误的。你知道,有很多头条新闻说我们进行了大规模裁员,但事实并非如此。真实的情况是,我们确实在大力发展人工智能,这是有道理的。这是一项非常具有变革性的技术。所以我们正在大力发展它。同样真实的是,许多工作流程变得更加高效。去年底发生的事情是,我们意识到我们有全职员工,但也有一些小时工承包商。我们意识到我们需要更少的小时工承包商。因此,对于我们的一小部分小时工合同,我们没有续签他们的合同,因为我们意识到我们需要更少的人来完成一些任务,老实说,计算机和人类一样擅长。
这可能对像小时工承包商这样的人群是真实的,他们基本上被要求做一些计算机已经非常擅长的非常机械的语言任务。我认为,如果你在谈论我们的全职员工和那些不仅仅是在做机械重复性工作的人,那将需要一段时间来替换。我不认为,当然这也不是我们作为一家公司想要做的事情,我最近听到一个很好的说法,那就是“你的工作不会被人工智能取代,而是会被懂得如何使用人工智能的人取代。”所以在公司里我们看到的,至少对于我们的全职员工来说,不是我们能够或者甚至想要替换他们,我们看到的只是更高效率,以至于人们能够集中精力在更高层次的认知任务上,而不是机械的事情。
我不知道,一百年前人们被雇佣来做加法或乘法。最初的“计算机”实际上是被雇佣来做乘法的人类。我们能够机械化这一过程,并使用实际的计算机来做这件事,这样人们就不必再做这件事了。相反,他们花时间在更高层次上规划某事,而不必进行乘法运算。
我们现在看到的情况与此类似。而我们现在看到的另一件令人惊奇的事情是,我们正在节省成本,因为一个人可以做更多的事情,而且我们也能够做得更快。特别是在数据创建方面,我的意思是,我们教你阅读的一种方式是教你阅读短篇小说。我们过去需要创作,也需要创作很多短篇小说。
我们过去能够以一定的速度创作短篇故事。现在我们可以以10倍的速度创作。而能够以10倍的速度创作的美妙之处在于你实际上可以提高质量。因为如果你以10倍的速度创作一次,你不喜欢,你可以重新开始,做出一些改变,然后,哦,你不喜欢?好的,再试一次。所以你可以,你可以尝试10次,而以前你只能尝试一次,通常你不必尝试10次,你只需要尝试更少的次数。所以这能够在同一时间降低我们的成本,同时使速度更快,质量更好。所以从公司的角度来看,我们对此非常满意。
**Joe (33:30):**你能谈谈更多关于基准测试人工智能吗?因为有所有这些测试,对吧?你看到这些网站,它们说,嗯,这个在LSAT上得了这个分数,这个在SAT上得了这个分数。我总是不能完全理解,从你的角度来看,基准测试不太清楚,你是如何基准测试不同的模型,并确定何时使用人工智能而不是让人来做某项任务。
**Luis (33:58):**是的,我有和你一样的感觉。我觉得很多这些基准测试都是由市场团队制定的。我们内部做的事情有两件。首先,我们只是尝试一些东西,然后我们看看它,我们看看非常具体的 - 一个AI能够通过LSAT或其他什么的很好,但我们,你知道,我们不是为了通过LSAT而做生意。我们的业务是做我们正在做的事情 - 创作短篇故事或其他什么。所以无论是什么任务,我们只是尝试它,然后我们自己评判质量。
到目前为止,我们发现OpenAI模型的质量比其他人的略好一些,但并没有好太多。我的意思是,两年前它要好得多。似乎其他人正在迎头赶上,但到目前为止,我们发现这只是我们进行测试时的情况,再次强调,这只是一个公司,我相信其他公司可能会发现不同的东西,但对于我们来说,对于我们特定的用例,我们一次又一次地发现GPT-4表现更好。我不知道,当然现在每个人都在宣布会有GPT-5之类的。我不知道那些会是什么样子,但这是我们的发现。但你知道,通常我们只做我们自己的测试。
**Joe (35:01):**是的。特蕾西,我觉得这很有趣,尤其是[因为]我认为我们已经谈论过这个问题。很明显,一个模型是否会被证明比其他模型更出色还有待定。就像谷歌在基本上的20年里远远领先于其他所有人一样,而且现在仍然是。就像,我不清楚AI是否会出现这种情况。
**特蕾西 (35:20):**是的,我们处于,我不知道,聊天模型的必应时代,最终我们都会迁移到其他东西。路易斯,我想问你一件事,这有点回到对话的最开始和一些关于语言的旧思想。
过去曾经有一种共识,但我不想说是共识,但曾经有一些认为语言在很多方面非常复杂,很多时候有些模棱两可或可能依赖于上下文,这使得AI很难理解。我现在想知道,像Duolingo这样的东西,你的模型如何考虑到这种上下文依赖性?我特别考虑的是像普通话这样的语言,发音有点棘手,很多理解取决于特定单词所说的上下文。那么,你是如何处理这种情况的?
**Luis (36:19):**是的,我觉得这是一件有趣的事情。你知道,当你问这个问题的时候,我想到了这件事。我从90年代末就接触人工智能了,它就像是一个不断移动的目标。我记得每个人都在说,看,如果一台计算机能下国际象棋,那肯定它具有人类水平的智能。这就是每个人都说的。然后事实证明,计算机确实能下国际象棋,但没有人同意它具有人类水平的智能。就像,“好吧,它能下国际象棋,下一个目标是什么。” 然后他们会继续提出类似的东西,比如,如果一台计算机能下围棋,或者如果一台计算机能做这个,那么… 最近的一些事情之一是,你知道,如果一台计算机能够写诗得很好,或者理解文本,那么肯定它是智能的。
我是说,现在,像GPT-4这样的模型在做事情方面真的很出色——肯定比普通人好。它们可能不如世界上最好的诗人那么厉害,但肯定比普通人写诗更好。在几乎任何涉及文本处理的事情上,肯定比普通人更好。实际上,如果你看看普通人,他们在写作方面并不特别擅长。
**Joe (37:23)**包括很多专业作家。
Luis (37:25)
哦,是的。不,我是说,这些模型真的很出色。事实上,你可以写一些写得还行的东西,然后让模型把它变得更好。它就会这样做。它会让你的文本变得更好。所以,这就是一个有趣的事情,就是人工智能…我们不断提出这样的事情,比如,如果人工智能能解决那个问题,那就够了。就够了。我不知道下一个目标会是什么,但是,你知道,我们不断提出这样的事情。就语言而言,事实证明语言大部分可以被这些模型捕捉。
事实证明,如果你设计一个神经网络架构,这个——你知道的,没有人能猜到,但事实证明,如果你设计这个神经网络架构,称为transformer,并用大量文本训练它,它几乎可以捕捉语言的任何细微差别。再次强调,没有人能想到这一点,但事实证明情况就是这样。所以在这一点上,当你问到,你知道,我们如何处理上下文或其他内容时,它就起作用了。我们有些是用手写规则,因为我们写规则。但一般来说,如果你要使用AI,它就起作用了。你可以问我为什么它起作用,我不知道为什么它起作用。我认为没有人知道。但事实证明,统计数据足够强大,如果你用大量文本训练它,它就起作用了。
**Joe (38:43):**我只是想回到,你知道,AI的发展方向,你提到AI可以生成成千上万,或者,你知道,非常迅速生成大量短篇故事。然后人类可以说,“好的,这些是我们可以改进的好故事。” 所以你不仅可以获得效率节约,实际上你还可以获得更高质量的教训等等。但是,你知道,我在提高抽象层次。比如,将来是否会有一天,学习一门语言或整个序列几乎完全是AI可以从零开始做的事情?再次强调,我在想到那个象棋类比,不需要使用整个游戏历史来学习,只需要知道基本规则,然后进一步提出一些东西。比如,AI最终是否能够设计学习一门语言意味着什么的架构?
**Luis (39:36):**我是说,当然。我认为在某个时候,人工智能将能够做几乎一切。
**Joe (39:41):**对。
**Luis (39:41):**很难知道这需要多长时间。我是说,这真的很难。而且,老实说,对于我们自己的社会来说,我希望这个过程是逐渐的,而不是突然间就发生。因为,如果有一天我们发现人工智能真的能够… 如果明天有人宣布,好吧,我有一个几乎可以完美做任何事情的人工智能,我认为这将是一个重大的社会问题。因为我们将不知道该怎么办。但是如果这个过程至少需要20、30年,我们将能够作为一个社会,找出该怎么做。但是,总的来说,我是说,我认为在某个时候,人工智能将能够做我们能做的一切。
**Tracy (40:15):**目前人工智能面临的最大挑战是什么?我意识到我们一直在谈论机遇,但目前你们正在努力克服的问题是什么?无论是像获得足够的计算资源还是招聘到最优秀的工程师,或者是与其他许多也在使用人工智能的公司竞争,也许是在同一行业。
**Luis (40:41):**我是说,确保招聘到优秀的工程师对于任何与工程相关的事情来说一直是一个挑战。你知道,你想要最优秀的工程师,但他们并不多,所以竞争很激烈。这当然是真的。你知道,在特别是人工智能方面,我会说,我不知道。这取决于你想要实现什么。这些模型变得越来越好。它们还没有完全展示出我们希望它们具备的实际推理和理解能力。我是说,你仍然会看到一些… 因为它们的工作方式,我是说这些只是在预测下一个单词。因为它们的工作方式,你会看到它们有时会把加法搞错。因为它们实际上并没有在做加法,它们只是在预测下一个单词。结果你可以预测很多事情。所以它们并没有真正理解加法的概念。所以我认为,你知道,如果你在寻找的是一种普遍智能,我认为在实际理解这些模型尚未具备的某些概念方面还需要一定程度的努力。而且,你知道,我觉得需要新的想法来解决这个问题。我不知道这些想法是什么,如果我知道我会去做,但是,需要新的想法来解决这个问题。
**乔(41:48):**是的,这仍然让人难以置信。就像,你看到AI产生了某种令人惊叹的输出或解释,然后它会在像“一公斤羽毛和一公斤钢哪个重”这样的问题上出错。就像某种很…
**路易斯(42:03):**这是因为它没有实际的理解。
**乔(42:05):**对,它没有实际的直觉。我只有一个最后的问题。匹兹堡没有很多像切边科技公司。我知道CMU在历史上一直是先进AI研究的堡垒。我记得有一次,Uber买下了整个机器人部门,当时正试图做自动驾驶汽车。但是,当涉及到招聘人才时,而且已经很少见了,与总部设在匹兹堡相比,与总部设在湾区或其他地方相比,有什么优势和劣势?
**路易斯(42:38):**是的,Duolingo从一开始就总部设在匹兹堡。我们喜欢待在那里。有好的和坏的地方。我的意思是,显然一个好处是靠近卡内基梅隆大学。卡内基梅隆培养了世界上一些最优秀的工程师,特别是与AI相关的。在像匹兹堡这样的城市的另一个好处是… 有两个好处。其中一个是人们不那么容易离开工作。你知道,在像硅谷这样的地方,人们每18个月就会换工作。我们的平均员工在这里待的时间很长,这实际上是一个主要优势,因为你不必重新培训他们。他们真的知道如何做这份工作,因为他们已经做了七年了。所以这是一个优势。
我认为我们另一个优势是,在硅谷方面,通常有一两家公司是硅谷的宠儿,每个人都想在那里工作。而硅谷的宠儿每两三年就会变一次。所有优秀的人才都会去那里。匹兹堡的好消息是,这种时尚类型的事情不会发生。所以有时候……我们很幸运,因为现在我们的股票表现非常好。所以我们有点像是一个时尚公司,但也有过我们不是的时候。但我们仍然能够招聘到非常优秀的人才。所以我认为这一点非常好。当然,另一方面,当然也有一些角色在匹兹堡很难招聘到人,特别是产品经理在匹兹堡很难招聘到。因此,因为这个原因,我们在纽约设有办公室,并且我们互补。我们在纽约有一个相当大的办公室,我们互补。
**Tracy (44:03):**好的。来自多邻国的路易斯·范·安,非常感谢你参加《Odd Lots》。太棒了。
**Luis (44:08):**哦,谢谢。太棒了。
**Tracy (44:21):**乔,我喜欢那次对话。当路易斯谈到的时候,我在想的是,AI不会取代你的工作,而是懂得如何使用AI的人会取代你的工作——我在想,就在我们录制这个节目之前,你告诉我你用过—是Chat GPT还是Claude?—来学习我通常做的事情。
**Joe (44:40):**哦,是的。对于那些不知道的人,我们有一个每周的《Odd Lots》通讯,每周五发布。你应该去订阅。而且特蕾西通常会给每周的一个嘉宾发送一封电子邮件,询问他们推荐哪些书。你知道,人们喜欢读书。然后她会进入MS Paint,然后把四本书的封面放在一起。
**Tracy (45:00):**我的西斯廷小教堂。
**Joe (45:00):**我这样做是因为 Tracy 几周前不在。我不像,我从来没有学过 Photoshop 或者 MS Paint,所以就像—我很笨—就像把四张图片放在一起的过程并不是我完全知道如何做的。所以我去找 Claude,我说,“我正在用 MS Paint 把四张书的图片放在一起。请告诉我如何做。” 他一步步地指导我。我做到了,Tracy。你为我感到骄傲,对吧?
**Tracy (45:25):**我非常骄傲。我觉得有点讽刺的是,AI 使用的巅峰是教一个人如何使用 MS Paint,但没关系。我接受。不,这段对话中有很多值得探讨的地方。我想说的一件事,也许有点陈词滥调,但似乎语言学习是许多自然语言和聊天机器人技术应用的基础。因此,从一种纯粹的语言或语言学角度来看是很有趣的。
**Joe (45:56):**是的,我觉得我们本可以和路易斯讨论几个小时关于语言理论本身,我觉得这个话题非常迷人,而我只会说一种语言。我曾经会说法语,所以我不知道是否告诉过你,但我在瑞士日内瓦读了一个学期,我和一个只会说法语的家庭住在一起,我在去那之前从未说过一句法语。一个学期后,我回家,通过了我在那里生活的四个月的大学要求。然后 20 年没有再说法语,我全忘了。但是,我本来想说点什么。我真的不知道。
**Tracy (46:33):**没关系。我也说多种语言说得不好。
**Joe (46:36):**但你知道,我在想的另一件事是… Duolingo显然在很久以前就存在了,任何人都没有谈论生成式人工智能或其他任何东西。你听到的其中一件事,有点贬低的说法,就是有些公司会被称为聊天GPT包装器,对吧?基本上,他们只是拿GPT-4,无论最新的模型是什么,然后在其上构建一些时髦的界面来执行特定任务。而Duolingo有趣的地方在于,它感觉像是反向的,或者说是按照相反的顺序进行,他们已经有了这个极其受欢迎的语言学习应用程序,然后随着时间的推移,他们会融入更多内容。所以,与其说是为了别人的技术而开始,他们已经有了受众,已经有了这个东西,然后他们找到更多的方式,让人工智能可以用来重新构建核心应用程序。
**Tracy (47:29):**是的,这是一个非常好的说法。还有就是所有这些技术的迭代性质。所以这个想法,你在训练它—我知道,再次强调,这似乎是一个显而易见的观点。但是,我也没有意识到到目前为止Duolingo的很多东西是多么定制化的。而且这个想法是,如果你说一种语言,那么你学习德语的方式将会完全不同于那些从小说其他语言长大的人。我对Duolingo这样的东西可能拥有的数据量非常感兴趣。我猜也许我们应该问问路易斯关于这个问题,还有其他的商业机会,比如授权那些数据或者,也许,我不知道,我想他们一度与Buzzfeed合作,CAPTCHA实际上是在翻译新闻文章之类的。
**乔(48:19):**是的,本来会有类似的事情。我记得这个想法并没有真正起飞,但是Buzzfeed的想法是将其新闻文章翻译成西班牙语和其他语言,通过Duolingo用户学习这个过程。我忘记为什么没有成功,但是,绝对是这样。
**特蕾西(48:35):**我也觉得有趣,在某种意义上,我们现在是AI正在获取信息的来源,对吧?而且,所有那些分钟,我肯定最终会累积成天数,通过CAPTCHA,这都是未经报酬的劳动,用来训练我们未来的AI霸主。
**乔(48:56):**他提到他对去年暗示他们因为AI而裁员感到不满。但他确实说有些人——他们是承包商,所以他们不是全职员工——但听起来这是AI能够完成工作的一个非常明显的例子,即使他们是承包商,这些工作本来是由人类完成的。我对我读到的大多数文章持怀疑态度,其中一家公司说,“哦,我们要削减所有这些劳动成本,我们要使用AI”,因为我更倾向于认为这往往是一个企业想要裁员并让其听起来像是他们在进步的幌子。但这里似乎是一个实际的例子,其中某种形式的人力劳动不再需要,因为有了AI。
**特蕾西(49:41):**是的,AI最终会来追求我们所有人。我们就到这里吧?
**乔(49:45):**就让它在那里吧。
关注路易斯 @luisvonahn