Lux Capital的Josh Wolfe谈投资机器人技术 - 彭博社
Tracy Alloway, Joe Weisenthal
与华为技术有限公司展台上的Unitree Go2机器狗互动的参会者。
来源:彭博社/彭博社 在过去的一年左右,可能每个风险投资家都对人工智能产生了兴趣。因此,人们仍在摸索哪种商业模式实际上有效,谁最终会在这个领域赚钱。乔什·沃尔夫(Josh Wolfe)已经从事这项工作很长时间了。作为Lux Capital的联合创始人兼董事合伙人,他参与了该领域的许多交易,并且已经在ChatGPT发布以来的聊天机器人热潮之后看向了下一个目标。在这一集中,我们与乔什谈论了他目前感兴趣的事物,包括机器人技术、生物技术和维护。他告诉我们,就像ChatGPT让每个人都看到了聊天机器人的力量一样,类似的时刻即将到来,将在机器人领域展现出来。本文已经经过轻微编辑以提高清晰度。

收听 • 52分钟2秒
Odd Lots:乔什·沃尔夫:机器人领域的ChatGPT即将到来(播客)
52:02
**播客中的关键见解:**迄今为止的生成式人工智能使用情况 — 4:10聊天机器人的日益失败 — 7:04机器人模型与文本生成模型 — 9:24机器人领域的关键人员风险 — 13:19开源和机器人技术 — 17:11人工智能的尽职调查 — 21:02机器人臂 — 23:41机器人的迁移学习 — 26:21其他类型的机器人学习 — 28:02现有企业和机器人开发 — 33:18聊天机器人的护城河 — 35:50能源消耗和人工智能投资 — 40:56扩大上下文窗口 — 44:15---
**乔·韦斯坦(00:20):**大家好,欢迎收听另一期Odd Lots播客。我是乔·韦斯坦。
**特蕾西·阿洛维(00:25):**我是特蕾西·阿洛维。
**乔(00:26):**特蕾西,让我们再谈谈人工智能。
**特蕾西(00:29):**好的。我们可以让人工智能为我们写剧本,省点时间。
**乔(00:34):**不,我认为技术还没有达到那个水平。你知道吗?所以我不能说是谁,最近我和一位教授交谈,她对我说了一些非常有趣的事情。我不确定[我能不能说],没关系,我想我
**特蕾西(00:46):**说吧。
**乔(00:47):**她说,人们对孩子们作弊写作文或让ChatGPT为他们写作文感到焦虑,据说教授们正在绞尽脑汁想要解决这个问题。
而人工智能检测器实际上并不是特别有效,但显然解决方案似乎是无论如何都将它们评为普通的作文。目前看来,所有的ChatGPT作文基本上都是C级作文,所以即使你认为它们可能是由人工智能生成的,至少目前看来,对于大学生来说,好好写作文似乎还不是一种方法。
**特蕾西(01:25):**那我们的基准线,我们的平均水平,现在是ChatGPT了吗?
**乔(01:30):**是的,基本上就是这样,你能打败这个机器人吗?
**特蕾西(01:32):**你看到有人在推特上发的那个东西了吗?AI生成的文字的一个线索是使用‘深入’这个词。
**乔(01:40):**是的,我看到了。
**特蕾西(01:41):**作为一个我确定在这个播客和我的写作中多次使用‘深入’这个词的人,我觉得有点不公平。
**乔(01:48):**有点不公平。
**特蕾西(01:49):**这是一个陈词滥调,但这并不意味着它来自AI。
**乔(01:52):**所有这些都说,AI不仅仅是ChatGPT,显然还有聊天机器人——最近在几集中有提到过,但只是非常间接地——人们谈论AI在工业应用中的使用,我看到了很多东西。
有几篇Bloomberg文章谈到了一些初创公司,他们说‘好吧,如果我们像训练大型语言模型那样训练机器人,你只需向它们提供大量真实世界数据’,那么,是的,当然,你仍然需要解决机械工程的部分,但如果这样的训练数据使它们能够做更高级的工业事务,比如,我不知道,制作比萨或者成为一个更强大的人类装配线,或者类似的事情,就像我们看到所有这些令人印象深刻的机器人和视频,比如波士顿动力,但我从来不知道其中任何一项是否已经具有其价值。
**Tracy (02:49):**是的,人工智能的机器人技术对我来说非常有趣。这让我想到了我们想要看到的世界。如果我们有能够打扫房子或照顾老年家庭成员等工作的物理机器人,那将是很棒的。如果我们所有的技术实力都用来写ChatGPT的讽刺歌词,那就不太好了。那很有趣,我自己也可以做到,但我真正需要的是有人来吸尘或擦拭房子。
**Joe (03:23):**洗衣服,会很不错。好了,我想直接开始,因为我们真的有完美的嘉宾。我们将与一位长期投资于人工智能的人进行交谈。显然,去年很多风险投资商开始投资于人工智能,但这位嘉宾在人工智能领域投资了相当长的时间,早在它成为热门话题之前。
我们上次七月份与他交谈,谈话很棒,讨论了他在这个领域看到的东西。所以我很高兴再次欢迎他来到节目。我们将与Lux Capital的联合创始人兼董事总经理Josh Wolf进行交谈。Josh,非常感谢您再次出现在Odd Lots节目中。
**Josh Wolfe (04:00):**很高兴能参与。我觉得我应该用机器人的声音说‘你好’。
**Joe (04:06):**那么,您最近发现有趣的事情是什么?您看到了什么让您兴奋的东西?
**Josh (04:10):**嗯,你知道,你们开始谈论人工智能,而在人工智能领域,我们已经有了一些可能有点贬低、有点粗俗的东西,我们有芯片,每个人都知道。我们上次谈到了英伟达和AMD。
我们有聊天机器人。你们已经有一些这样的家伙开始失败了。他们已经筹集了数十亿美元,在某些情况下只是相对缺乏差异化,开源和大型私有模型之间存在着一场大辩论,这种开源模型正在接近大型私有模型的成就极限。
然后再说一点粗俗的,你们有女孩。我是什么意思呢?人工智能中的大多数应用都是单调乏味的,一方面是像客户服务和基本呼叫中心的补充或替代,另一方面是有些人每个月在AI女友身上花费数万美元,以及那些通常会用技术来满足色情兴趣的人。
所以对我来说,人工智能中的两个极端是赚钱和利润的地方,为了满足基本的人类本能和需求。这对我来说没那么有趣。总的来说,你会看到从计算部分到能源部分的巨大转变,这意味着人们现在意识到人工智能的瓶颈不会主要是芯片。
我们几个月前也谈到过这一点,我们说,看,你不一定需要这些英伟达芯片来进行推理——当人们查询所有这些模型时,他们大多数时间都在做这个,你需要它们来进行训练,但这些东西的功耗水平实在是巨大。
戴尔的财报电话中透露出这款 Nvidia B100 Blackwell 芯片将消耗一千瓦的功率,比这些 H100 芯片多了40%,50%。为什么这很重要?因为现在你得想办法如何为它供电。
有一个有趣的小道消息是亚马逊在宾夕法尼亚州收购了一个核动力数据中心。他们花了6.5亿美元,获得了大约一吉瓦的电力,我认为这将成为一个趋势。我认为这实际上将引领一波我称之为元素能源的浪潮,但需求核能来为这些大型人工智能数据中心供电。
**特蕾西 (06:16):**是的,当你想到这一点时,有点有趣。我想没有人预料到铀最终会成为人工智能的一部分,但现在我们就在这里。我想回到你说的一些事情,你上次我们去年谈话时提到过,那就是一些更具公共面向的人工智能项目的新颖性。
我记得你去年指出过,使用一些这样的东西真的很有趣,比如生成一堆你自己的卡通版本之类的,但这可能不是一个可持续的商业模式,最终可能会被整合到另一个平台或不同的项目中。你看到有没有更具公共面向的新奇人工智能开始消失的例子?我记得你最近提到了一些失败案例。
**乔希 (07:04):**是的。有很多公司基本上拿了 ChatGPT、GPT-3 或 -4,然后在其周围加了一层包装,基本上是为那些不知道如何使用这些或甚至不知道如何提出提示的普通用户提供一些与之交互的手段。
这些事情筹集了大量资金,使这些事情变得可获得,并且它们已经逐渐消失了。支撑所有这一切的基金会模型本身也开始被相对地商品化,其中一些事情有着杰出的人物,筹集了大量资金,但我认为它们是失败的。
以Inflection为例。你有穆斯塔法·苏莱曼,非常聪明的家伙,DeepMind的联合创始人,为那家公司筹集了我认为是15亿美元。你知道,我要小心谨慎,因为微软可能是这整个游戏中最精明的参与者,他们发现可以通过巧妙的方式收购东西,规避联邦贸易委员会和司法部的监督,他们实际上控制了OpenAI,正如我们之前讨论过的,尤其是去年年底围绕OpenAI发生的所有争议。
萨蒂亚说‘看,如果OpenAI破产了,我们拥有它,控制它。我们拥有所有关于他们的数据,左右中心周围都是。’对于这家公司Inflection也是一样。他们为这项技术做了我认为是6.5亿、6.75亿美元的许可,基本上是对风险投资者所做投资之上的一笔付款。
风险投资者赚了一点钱,但不多。关键管理层转到了微软,但微软非常聪明。所以回到你的问题,我认为大公司会变得更大,并且会成为这里的大多数受益者。微软、Adobe、亚马逊--亚马逊本身即将迎来Bedrock一周年纪念,他们将宣布他们拥有最佳表现模型Anthropic,他们已经在这个模型上投资了数十亿美元,现在成为OpenAI ChatGPT的竞争对手。
他们还将宣布与我们的一家公司之一在生物学领域尚未公开披露的事情。这将是两大浪潮之一:生物学和你开始对话时提到的机器人技术。
以机器人技术为例,我认为在我们的一家公司Hugging Face中,这是所有这些开源模型的主要存储库之一,大约有6万个文本生成模型。大约是59,700个左右,但只是一个庞大的文本生成模型数量。
这不是两三个。这是每个人都在做这个,每个人都在尝试做这个。基本上是基于前一个单词来预测下一个单词。这就是谷歌发明的转换技术最终演变成的东西。猜猜有多少机器人模型?在文本生成中有59,000个。猜猜有多少机器人模型?
**特蕾西(09:22):**59,000的一小部分。
**乔什(09:24):**显然我正在用我的手机领先,但是有19个机器人模型,所以你有--对我作为一名风险投资者来说,我们总是在寻找哪里有丰富,哪里有稀缺?机器人模型稀缺?为什么呢?
嗯,相对来说在开放互联网上进行训练相对容易。你有维基百科,你有YouTube视频,你知道,无论你是否应该这样做。就像在Sora问到的那位女士“嘿,你是怎么训练这些东西的?是在YouTube上吗?”你可能看到了。
所以在那方面会有各种版权问题。机器人很难,为什么?世界上大部分已经存在的机器人技术,就像你在介绍中提到的那样,都受到制造设施、工作单元、装配线的限制,非常具体地受到参数约束,所以它们实际上所做的事情的自由度非常有限。
这些机器人本身可能有多轴夹持和控制器,但它们并不自由移动。像亚马逊收购Kiva,将仓库库存物品移动的例外,但同样,相对来说是X、Y、Z轴的访问。不是无结构的环境。你我和我们的听众,每天都在无结构的环境中茁壮成长。
这就是你需要大量的训练数据的地方。你不能在互联网上搜索到这些。那么你该怎么做呢?出现了一些方法,你提到了一些文章。我们资助了一家最近从隐秘状态中走出来的公司,叫做Physical Intelligence,而不是人工智能,是物理智能,这是来自斯坦福和伯克利的精英团队。
你有一些OpenAI的人员,有Google DeepMind的人员。他们接受了来自OpenAI、我们和其他一些风险投资公司的投资,他们全天候训练机器人做各种疯狂的事情,比如叠衣服、倒阻尼液,但是让这些机器人遇到无结构的环境,然后能够在其中茁壮成长,你将看到的下一步是视觉模型,你实际上给出了一个宜家的草图或者你画了什么东西,然后能够指导机器人具有对世界如何运作以及事物如何相互连接的直觉物理感,并从中学习。
然后我们还用简单的口头提示来训练这些机器人。所以有一个视频可以在线看到,一些研究人员正在挑选坚果和M&Ms,并将它们分开,这只是一个能够精确和灵巧地进行分类和过滤的任务。如果它们挑选了错误的物品,你实际上可以不用物理抓取物品,而是说‘停下,拿M&Ms,不是坚果。’现在它知道了。
所以我认为我们即将在机器人领域释放出一种类似于ChatGPT的时刻,人们已经习惯看到机器人,他们看到了机械臂,看过《西部世界》之类的东西,突然间发生了一些事情,让你大吃一惊。我认为这很快就会发生。
**Joe (12:27):**这非常令人兴奋。因为就像我说的,至少有十年时间我一直在网上看那些波士顿的视频,那些YouTube视频,而且我现在有点相信它基本上是一个内容生成器。因为似乎从来没有像疯狂的机器狗之类的东西变成商业产品,但也许这就是缺失的环节,但你提出了三种不同的方向,我们可以探讨其中任何一个。
这里有一个具体的问题,然后我们也许可以回到机器人领域。这种情况是这样的,高级前沿人才短缺,真正懂得如何做这些事情的人才。你提到了那个被微软从其他公司挖来的家伙,作为人工智能或机器人初创公司的投资者,这种情况是否与其他软件或其他科技投资有所不同?基本上这种高技能技术关键人员风险,是吗?
**Josh (13:19):**是的,你总是在寻找稀缺的东西,你想要稀缺的人才。如果任何人都能做到这一点,那就不那么有价值。公司会得到资金支持,风险投资公司会资助,你知道,同时可能会有40家或者400家。
与那些非常基于网络的或者昨天的团购网站形成鲜明对比,这是高度技术化的,通常是博士科学家。我们支持的公司,比如Covariant或Formic或这家新公司Physical Intelligence的创始团队绝大多数都是来自斯坦福、卡内基梅隆、麻省理工等世界顶尖机器人项目的博士。
而且有这些伟大教授的传承,其中许多人已经去世,但例如,有这个人,汉斯·莫拉维克,曾经在卡内基梅隆大学。我在他还活着的时候见过他,他是机器人领域的早期先驱之一,他提出了这个被机器人界内部人士称为莫拉维克悖论,这是一个奇怪的反直觉现象,基本上是我们认为非常困难的事情对于人工智能来说实际上相当容易,而我们认为完全直觉和容易的事情,比如骑自行车,对机器人来说却非常困难。
所以有这个伟大的悖论,一些最杰出的研究人员正在研究的问题是,我们如何用这些非常复杂昂贵的机器来做一个4岁孩子可以非常直观地做到的事情?
然后还有各种考虑。我们可以谈谈这些机械臂是从哪里来的?中国从历史上许多德国公司收购的装备,我的意思是机械臂,可以移动东西。
然后还有这场伟大的哲学辩论,尚未浮出水面,但我相信会出现的,投资者们正在排队。我和一些人站在对立面;有人在资助人形机器人。
我说我站在对立面的原因是我并不真的相信它们。是的,你可能希望有人帮助照顾你的奶奶,也许提供一些陪伴,但这种电影中的想法,这些具有人类形态的 Ex Machina 类型的机器人,我们知道工程比进化更好。
如果我们明天要发明一辆汽车,用弗雷德·弗林斯通(Fred Flintstone)的脚来驱动这些石轮是一个糟糕的主意。我们知道致动器、轴和发动机只是更好的选择,进化并没有创造这些。为什么我们要创造这些人形手,如果我要拧开瓶盖,你知道,我必须转动手七次才能做到。而如果我只是设计一个完美的机器人,它会有一个小吸盘,它会放在顶部,它会有一个钻头机制,它会快速拧开瓶盖,然后它会像瑞士军刀一样更换下一个技术夹持器功能。
所以我认为人们被误导了,他们基本上最终会为假肢或类似《西部世界》的东西做事。但我认为我们将在家中使用的实用机器人看起来与这些人形机器人完全不同。
**Tracy (16:05):**这很有趣,这让我很想起我曾经和我爸爸有过的一段奇怪对话。他对外星人手的形状有点固执,他说‘为什么它们总是被描绘成有着类似人类手或者有时甚至只有三根手指的形象?为什么它们不会进化到下一个非常高效的生理水平呢?’
无论如何,有一件事我想问,我在思考如何提出这个问题或者正确的词汇是什么,但是在机器人领域,开源有多广泛,技术有多可共享或可复制?因为我觉得一个原因,你之前也提到过,但我们看到人工智能蓬勃发展的原因之一是因为你可以去像 Hugging Face 这样的地方下载大量开源代码并在此基础上构建,然后这种技术会自我复制。但在机器人领域是否有这方面的任何情况,还是更多的是专有的?
**Josh (17:11):**硬件部分历来非常专有,尽管有很多仿制品。有一家中国公司越来越主导这个领域。很多人不知道这个名字,[它]叫 Unitree,U-N-I Tree,Unitree,他们在模仿 Joe 谈到的波士顿动力机器人,以及你在黑镜剧集和其他类似节目中看到的机器人。
在软件方面,实际上,因为它有着与许多导致大型语言模型产生的人工智能软件相同的内核,起源于变形金刚,学术根源--学术界喜欢分享和发表。当然你可以对某些东西申请专利,但总的来说早期系统--一种叫做 ROS 的东西,你可能猜到,机器人操作系统,那些在做一种叫做 Arduino 的东西的人,这对于硬件和软件交叉的业余程序员来说,Poppy,还有一些这样的东西。
但现在,你处于一种模式中,需要找到训练数据,需要付出时间和精力,这需要花钱。因此,你将会有一些开放和封闭模型的混合,如果以物理智能这样的公司为例,他们的动机是我们想要构建一个操作系统,任何机器人基本上都可以用来导航世界。他们想要为机器人构建大脑,而不是机器人本身。
还有一个有趣的哲学和科学的分支,巴巴拉·茨维尔斯基,她是一位朋友,曾是现在已故的丹尼·卡内曼的伴侣,他也是一位朋友,她的工作虽然不那么出名,但我认为实际上更重要,她的工作主要是关于运动功能,她的假设是大脑存在的唯一目的实际上是产生运动,向食物或伴侣移动,或者逃离猎物或捕食者,而这反过来也在做同样的事情。
我认为一些关于意识和记忆、空间感知、具身认知、手势等最有趣的哲学问题,我的意思是,我现在说话时用手狂挥,这只是一种与生俱来的东西。当我们考虑人类大脑和机器大脑融合时,能够进行心理模拟,我实际上认为这将会非常具有启发性,随着这些机器人系统的进步,我们将更好地理解思维和智力实际上只是关于运动。因此,我认为这是我们在资助这些事物的商业和投机风险中所做的一些事情中将会产生的一个相当酷的副作用。
**乔(19:42):**你总是说一些让我想到我本来想问你的其他事情的话,但你提到学者喜欢分享他们的工作,这让我想起有人告诉我的一些事情,所以你知道,我确定你经常在这个网站上,但对于听众来说,有一个网站archive.org,人们在那里以某种开放源代码的方式发布各种科学和计算机方面的研究。
就在今天,在人工智能页面上,有大约15篇新论文,它们的标题像是“数字代理的自主评估和改进”或者“用于衡量进展和改进LLM代理的模块化基准框架”,我和一个人谈话时,他声称所有这些东西都在被发布,而投资者,很多风险投资者实际上并没有足够的技术能力来评判这些研究。
他们就像是那个‘拿去我的钱’的表情包。我很好奇你在这个领域看到了什么,就像你这样的投资者肯定会被博士们做各种事情所折服。就像‘哦,我们通过以不同方式训练模型,使这个Nvidia芯片的能效提高了100倍。’你是如何评估这些科学内容的,对于这种看似不断出现的突破,对投资者来说有多大风险?
**乔希(21:02):**嗯,你说得对,这是无穷无尽的,我是说这就是为什么从范纳瓦尔·布什的意义上来说,这是一个无尽的前沿,总是非常令人兴奋,你需要对这些事情有一个很高的过滤器。并不是所有的东西都是商业化的。
有时候只是有一个突破,但也许这个突破可以被授权给一家公司,所以那些真正在商业化这一切并考虑资本配置和招募团队,然后决定这是我们的前三个重点,即使有其他40个非常令人兴奋的事情,我们可能也应该去做,但现在我们就不会去做
这才是公司建设的真正意义。因此,我们可能会有一位杰出的科学家,但也许这个人只是不是一个好的推销员。他们无法讲述一个故事,无法说服人们搬到另一个国家加入他们。他们无法筹集资金,因此他们不会成为一个伟大的企业家,他们可能更适合做科学家,但当我们做评估时,关键是在多长时间内能完成多少工作,谁会在乎?
就像你在玩扑克牌一样,你在看你的牌,你在计算你必须为下一轮下多少赌注,然后外部因素是什么,市场会怎么说,他们会在乎吗?这就是为什么我很怀疑人们现在在资助其他领域,比如聚变或量子计算。
我对它们非常怀疑,部分原因是20年来人们向我们推销的东西总是关于不可破解的密码学和飞秒,我就在想,那又怎样?人们承诺的大多数事情,比如不可破解的密码学或分子建模,人们正在做,只是他们没有使用量子计算机。他们使用GPU,他们使用英伟达芯片,他们使用新算法。
所以我一直对这个持怀疑态度。同样,我对聚变也持怀疑态度,原因是,正如你所说,人们利用这种无知套利。他们利用投资者并不完全理解某件事情,它很热门,出现在报纸或杂志的头版。这是一个热点,他们想参与其中,所以他们投资,这就是欺诈产生的方式。
所以我们一直在寻找,并且基本上试图说,这个学术从业者是否商业头脑?他们可能不会辞职,所以我们只能得到他们20%的时间。知识产权是真实的吗?而且正如你所说关于论文,论文的引用率很高。一篇被引用很多次的论文更具可信度,因为你有其他科学家的虚荣错误检测和纠正,他们试图打倒那个因为做了这件事而享有名声的人,试图夺取那个地位。
所以科学家并不是一群仁慈的人,他们和调查记者、投资者或音乐乐队的A&R代表一样具有竞争性,都试图在其他人之前揭露故事或到达目的地,我们也不例外。他们也一样,但这就是所有这些事情的进展方式。
**特蕾西(23:37):**跟我们谈谈关于机械臂的事情。我要上钩了。
**乔什(23:41):**我要说的第一点是,我不相信那些有手指和高灵巧度的类人机器臂。我认为这是一个很酷的把戏,但我认为我们应该有更像瑞士军刀的机械臂,可以交换和移动东西,你可以在网上看到很多这样的东西,你知道,不同的工具用于不同的任务,并且能够立即完成。
当您将视野放在行业结构上时,您会看到FANUC,这是一个重要的日本参与者。他们从事工业机器人。他们进行工厂自动化,但他们是一个关键参与者,可能是一个价值250亿至300亿美元的企业。您还有ABB,这是一家瑞士-瑞典跨国工业机器人臂公司。这些是您在特斯拉超级工厂或其他地方看到的大部分设备,埃隆谈论的所有自动化设备,其中一些就是ABB机械臂。
另一个是库卡,KU-K-A,这是一家德国公司,他们是伟大的领导者之一。他们被一家中国公司收购,我想是在2016年或2017年。中国进行了一系列我认为非常明智的投资,收购了一些技术,这些技术有点超前,我认为这引发了一些地缘政治问题,也许在五到十年后,我们会看到并说‘天啊,为什么(这家)是主要的机器人臂供应商或机器人主体供应商(一家中国公司)?’类似于,依赖TSMC一样。”所以我认为会有国家机器人公司以同样的方式形成,就像您开始看到国家人工智能公司形成一样。
**Joe (25:07):**像Physical Intelligence这样的公司是如何解决数据问题的?因为正如您所说,没有类似于机器人互联网的东西,可以观看数百万小时的机器人臂尝试做某事或人类做某事或其他事情。解决令牌问题的方法是什么?
**Josh (25:26):**我会称之为简单的方法,实际上相当琐碎和困难,就是做人们最初在机器人手术中所做的事情。所以我们有一家叫做Auris Surgical Robotics的公司。我们以60亿美元的价格将其卖给了强生公司。它起初是由外科医生操作这些东西,就像是通过远程机器人操作,所以他们的手指上有小夹子,你知道,从五英尺远的地方或者在一个完全干净的手术室里,他们在操作,但实际上是他们的手传输到设备上。
所以这是第一种方式,就是想出一百种不同的任务,也许是最频繁的事情,比如洗碗、叠衣服——再次,无结构的环境,能够在多个不同的房子里做这些事情,不同的高度,不同的湿衣服,干衣服,能够倒咖啡,有灵巧打开K-cup的能力。我实际上不喝那些。我觉得它们很恶心,但是把它放进咖啡机里。
**乔(26:18):**我不喝那些糊状物
**乔什(26:21):**在这里,是一名工程师在操作它们。对于重力的补偿运动,需要多少力量,多少张力,多少压力,这都是信息。这是历史上没有被捕捉到的信息,其中一部分是可扩展的——这是一件非常酷的事情。
你可以看到一些这样的机器人,你可能有五种不同的机器人,但它们有一个叫做迁移学习的神奇功能。你教一个机器人一件事,突然之间另一个机器人,虽然是分开的,你知道,或者是通过互联网连接的,但它实际上可以学会刚刚那个机器人学到的东西并执行任务。
所以这实际上相当神秘和很酷。这就像如果我有一个机器人看到我在房间里扔球的地方,但其他三个机器人不知道,它们会立刻知道,因为它们有第一个机器人的眼睛。所以有各种各样的训练。
然后是图表和图纸。所以我之前提到过这一点,[用]宜家的图纸,但一旦你可以拿图表和图纸,并实际使用视觉语言模型,这是OpenAI与Physical Intelligence合作的一个项目,他们在这方面取得了一些突破。这也将是疯狂的,你可以简单地展示一个宜家的图纸,机器人就会根据一组有限的零件,一组螺丝和扳手等,完全组装出任何一个婴儿用品或家具或书桌,我认为这对人们来说也将是相当疯狂的。
**Tracy (27:43):**那实际上将是一项重大的生活质量改善,非常重要,不必再组装宜家家具。那将是令人惊叹的。
你能谈谈机器人是如何学习的,以及你认为最有前景的学习类型或不同的学习模式是什么吗?
**Josh (28:02):**你有两个主要类别,或者也许有三个。你有监督学习。在那里,你有输入数据。机器人正在学习,它正在被纠正,在某些情况下,就像我之前描述的那样,无论是声音还是手势或轻推。
然后你有无监督学习,机器人基本上是在非结构化数据上进行训练。它们可以发现模式,它们遇到世界,遇到边界,重力,那些东西。在这种情况下可能会慢一些,但它们正在减少错误的维度。我创造了一个术语,我称之为MBTFU,即错误之间的平均时间,但你希望这个时间尽可能长。
如果回顾早期的Roombas,Roomba不会知道它是在清理巧克力牛奶的溢出还是你的狗搞砸了并把它弄得像榛子酱一样弄脏了你的地板,对吧?你希望尽可能延长错误减少的平均时间。
然后你有强化学习,模仿学习,你可能在控制机器人或让它模仿你。还有这个转移学习的概念,一个单独的机器人学会了某些东西,但它可以将其转移到来自不同领域的不同机器人。
人们正在尝试许多不同的方法,拥有更多不同的机制,人们将会找出哪种数据消耗最小,哪种延迟最低且最快?或者哪种是最适合训练机器人的系统,你可以将其放在完全无结构的环境中而不需要任何训练,这就是他们所说的零-shot学习,它能够从先前的知识中找出‘我知道我不能穿过那把椅子,我知道它可以旋转,我必须这样转动它。我知道我需要多大的力量来拿起一个普通的可乐罐’,以及那些东西。
我认为,再次强调,当我们在生活中度过任何一分钟时,我们是多么理所当然地利用我们对物理世界的直觉性默契知识。实际上,我们在移动时有一种直觉性的物理学。机器人将会学会这一点
**Joe (30:12):**只是一个非常简单的问题,在接下来的五年里,我是否有可能在家里有一个机器人,我可以把所有衣服从烘干机里拿出来,放到某个地方,然后变成叠好的衣服?或者如果不是这样,那么什么可能是就在眼前的机器人的ChatGPT呢?
**Josh (30:31):**有一件事情,我向团队提出了一个设想,因为我正在考虑这个问题,你知道,什么会是一个非常酷的东西,我总是在我们的公寓里丢东西。我们有很多不同的房间。我会很高兴地说‘有人看到了吗’,这通常是我对我的妻子和三个孩子说的话,‘有人看到了我的钱包吗?有人看到了我的眼镜吗?’
好的,只是宣布你可以看到一个机器人在你家里有一系列的东西,它会有视觉识别和视觉学习,机器学习能够在视频帧中识别物体,可以说‘是的,乔什,我知道它们在哪里,去找到它们。所以对我来说,在家里找到并取回物品是一件相当酷的事情。‘我把遥控器放在哪里了?’或其他。
而且机器人基本上知道,因为它们可以查看家里的DVR,他们基本上知道在哪里,他们可以用正确的物理学去找到并取回它。叠衣服,我不知道如何去评价。我们现在可以相当粗糙地做到这一点…
**乔(31:24):**那是我想要的。因为我住在一个小的纽约公寓。我不会像太多人那样丢东西。基本上我需要那个叠衣服的机器人。
**乔什(31:32):**但你愿意为此付费吗?我不知道。你会为一个叠衣服的机器人付五千美元,一万美元吗?可能不会。这就是为什么大多数这些东西首先被用于工业用途。随着时间的推移,它们会变得越来越便宜,越来越好。
但是看,我是为数不多的拥有亚马逊Astro的人之一。这是一个可以在房子里滚动的机器人,你可以让它进入一个房间,你可以把东西放在它的后面,它可以为我的家人进行面部识别。所以我可以说‘奎恩或博迪在哪里?’然后他们就会找到我的小孩,我可以发送消息。这让我妻子很烦恼。但我觉得这有点酷,是的,每一个新出现的机器人,我都会是早期采用者。是的,我们喜欢发现这些东西。
**Tracy (32:33):**当前科技周期和所有对人工智能的热情中有一个有趣的事情是,到目前为止,似乎是那些大型老牌企业在这里获胜,部分原因是因为所需的资本投资如此巨大,所需的数据量也如此庞大。
当涉及到机器人技术时,你是否期望看到类似的情况,然后再加上,如果你是一家大型制造商,或者可能是一家拥有大量专有数据的公司,比如保险公司或金融公司之类的,你是否可以开发自己的机器人?这会是你的优势吗?你是否有可能自己完成这个任务?
**Josh (33:18):**在第一个案例中,如果我看看当前的情况,那么在那个大七巨头中的一家公司将会是亚马逊。因为他们已经投资了很长时间。杰夫·贝索斯对机器人非常热衷。所以我认为在那里有一种基因,使他们能够做到杰夫历史上喜欢做的三件事情,即增加选择和可用性,为客户提供更多便利,降低价格以及工厂自动化、仓库、交付。
即使当他们以一点多过10亿美元收购了我们的公司Zoox,该公司正在进行自动驾驶,他们长期打算能够24/7地进行右转车道导航穿越城市,有一个人基本上在进行最后一英里的交付。所以我可以看到亚马逊会这样做。
微软,我并没有真正看到他们会在机器人领域有显著进展。他们有一些研发工作,谷歌,我们谈到了这种现象,但他们是第三或第四个我们从大科技公司中招揽团队的公司。我们曾与谷歌合作,与一家名为Osmo的公司合作,基本上创建了一种用于嗅觉的Shazam。我们还与一家名为Evolutionary Scale的生物人工智能公司合作,这家公司属于Meta,很快将会有更多公开的宣布。
然后我们与谷歌的这个团队合作,他们成为了谷歌、DeepMind、OpenAI以及斯坦福大学和伯克利大学之间的Physical Intelligence。所以我认为这将更多地成为初创公司,资金的受益者仍将是英伟达和一些芯片厂商,一些硬件供应商。
我们需要硬件来训练机器人。但我真的认为这是一个开放的领域,再次回到那个关于聊天机器人有多少大型语言模型,以及为机器人准备了多少模型的统计数据。我认为这是一个巨大的机会。现在,五年后,我们可能会看到机器人领域的泡沫,但今天我认为这是一个非常令人兴奋的领域。
**Joe (35:05):**关于现有人工智能和竞争优势。所以当我第一次在2000年左右遇到谷歌时,我使用它,我觉得‘这比雅虎或其他任何东西都要好得多。’从那以后,我再也没有停下来。
对于聊天机器人,现在甚至谈论机器人,就好像我早期获得了ChatGPT Pro账户或其他东西,我觉得它很酷,我用它做了一些事情,然后Anthropic推出了新版本的Claude,我觉得‘哦,这实际上很酷,我有点更喜欢它。’我不太清楚为什么我更喜欢它,但出于某种原因,我更喜欢它,并且我毫不犹豫地转换了。一些核心模型可能不像人们期望的那样具有粘性或深壕渠吗?
**Josh (35:50):**完全正确。他们推出的语调,叫做 Pi,实际上并不是很好。他们现在已经转向微软。Anthropic 起初有点落后。他们是最具表现力的模型。它们是表现最好的。它们是我和你都最常使用的,因为它速度最快。它有一点点更多…
**Joe (36:08):**它似乎说话更好一些。
**Josh (36:11):**是的。但是关于你提到的关于壕沟和谷歌早期的一点,谷歌大部分搜索,记住谷歌的 2800 亿美元广告收入,你知道,巨大。谷歌,其中大部分是五到十个词的搜索。所以你输入一些东西,比如,‘西村的餐厅’,或者其他什么的。
Perplexity,我不知道你是否用过,我们早期见过创始人,最终我们没有投资,这可能是我们的一个失误。但是那里的创始人专注于‘你知道吗?我要做那 0.2% 的搜索或者那 1% 的搜索,那些更长的形式,人们真的想要问一个完整的问题。’ 我看到很多人在使用它,它并不会给出一些觉醒的答案或者一些简洁的,你知道,像 Grok 那样的回答。
它实际上是一个经过良好研究、注脚齐全、引用来源的回答。所以对我来说,目前在聊天机器人方面我最常使用的两个东西是 Anthropic 的 Claude 和 Perplexity。但是六个月后可能会有完全不同的东西,开源上可用的模型数量庞大,谁知道苹果最终会在这里做些什么并将其整合。你知道,Siri 很烂,但 Alexa 也是。亚马逊在采取行动。苹果也会。
但你可以稍微放大视野。风险投资领域正在经历低迷,唯一一个估值非常高、资金流动充裕、人才辈出的领域是人工智能,因此这些领域的未来回报将会较低。
这就是为什么我们在Lux决定,你知道,我们将专注于人工智能在现实世界中的应用。在过去的五年里做了所有这些事情之后,我总是说有这种五年心理偏见。每个人都希望今天投资在五年前应该投资的地方。所以Hugging Face和Mosaic,我们将其卖给了Databricks,我们五年前就参与其中了。如今,我们对生物学、机器人技术以及人工智能在这些领域的应用非常感兴趣。
然后我有一个非常奇怪的主题,对我来说很性感,因为对我和其他人来说并不性感。你了解会计,绝大多数风险投资者和许多初创企业的人并不了解。但你看CapEx,CapEx由两部分组成:增长和维护。每个人一直在资助增长、增长、增长、增长、增长和风险增长。
所以我对维护产生了兴趣。为什么?因为你有数万亿美元的资产,基础设施、医院系统、能源系统、建筑物需要维护和发电,每个新创企业和每个新投资者总是想做新的事情。这就是为什么我们有新音乐、新食物和新时尚,但所有这些被忽视的资产,我认为你可以应用新技术来维护这些系统。因此,我对这个不性感的维护主题着迷,我认为在未来几年这将成为一个热门领域。
**Tracy (38:55):**等等,你的意思是维护物理基础设施吗?所以你是说你可以有一个小机器人在你的工厂周围或一堆高速公路上巡视,寻找裂缝或需要修复的东西?
**Josh (39:08):**完全正确。它可以是交通基础设施。它可以是在医院内部进行例行事务。而且很奇怪的是,我知道你们已经报道过这个,但AI实际上正在针对白领工人。你知道,你开玩笑说你可以谈论AI并基于AI生成脚本…
**Tracy (39:28):**哦不,这不是笑话。非常认真。
**Josh (39:31):**是的,他们总是认为他们相对独立,只有蓝领工人会受到影响。但让我告诉你,让我创业的那个人,卡莱尔集团的创始人比尔·康威,他把所有的慈善基金,或者说其中相当大一部分,用于资助护士学校。为什么?因为他确定了一个非常高的影响程度,因为我们在这个国家缺乏护士。
这是一个机会,机器人和技术可以发挥作用的维护领域。如何增强和帮助护士。水管工,我们在这个国家有大量的水管工短缺。所以我实际上认为,由技术赋能的蓝领工人并维护我们周围所有这些系统实际上将是一个成功的组合。
**乔(40:09):**我想谈谈我认为AI投资的另一个方面,那就是在我猜测的SaaS浪潮,2010年代,计算变得非常便宜。所以基本上你可以插入AWS,这种情况下,是的,我知道这可能要花一些钱,但对于很多公司来说,这不是一个很大的支出项目。
这会如何改变?在2024年,当你在处理一个AI公司时,电费存在或硬件积累,取决于他们在堆栈中的位置,作为一名投资者,你如何考虑这种变化,我猜人们会谈论转变,不得不在资本支出和运营支出之间花费更多,相对于前一代科技初创公司。你如何选择投资时,这会如何发挥作用?
**乔希(40:56):**这是一个很好的问题。在AI世界中,然后我会给你生物学世界的例子,在AI方面,以OpenAI为例,这些都是传言中的数字,没有完全确认,但大约20亿美元,也许30亿美元的收入。我认为大约有1000万人每月支付20美元左右,或者大约有一亿用户。我不知道其中有多少是独特的,但他们在这方面没有赚钱。
今天他们损失了数十亿美元,因为你有这些前期成本,大量的资本支出,很多培训,然后你可能尝试做一些大型企业交易。像Hugging Face这样的公司是盈利的,因为他们不是在做,他们只是托管它,让人们运行推理,然后收费并在这类事务上获利。对我来说,有趣的是那些花了大笔钱的人,他们必须赚回来。
你能通过将每月的价格从20美元提高到30美元来获得定价权吗?也许你可以做到这一点,因为现在你有了Open AI高级版,你可以访问Sora进行视频生成或类似的功能。
所以这将是一个重要问题,这些是否是有利可图的投资?不是‘它们是否很酷?’不是‘它们是否改变世界?’当然,它们是。但它们是否是有利可图的投资?而且,市场可能并不在乎它们是否有利可图。市场资助各种他们相信叙事、故事的无利可图的事物。
但是考虑到基本业务和资本支出与运营支出之间的经济变化,我认为在人工智能领域,如果你正在建设数据中心,尝试进行自己的训练、推理,托管这些模型,这是非常困难的。
在生物学领域,我们将看到一个AWS时刻,而不是你必须成为一家开设自己湿实验室的生物技术公司,或者搬进专门托管生物技术公司的亚历山大房地产公司在所有这些不同地区靠近学术研究中心的地方,你只需将你的实验上传到云端,在那里有基于云的机器人实验室。
我们资助了其中一些。有一家名为Stradios的公司。还有很多即将涌现。这是令人兴奋的,因为你可以是巴哈马的海滩上的科学家,拿起你的iPad,运行一个实验。机器人执行90%的活动,比如从一个烧杯中倒入另一个烧杯,运行离心机。
然后从中得到的数据,这才是真正酷的部分,然后机器人和机器实际上会对你说‘嘿,你想运行这个实验,但更改这四个参数或这些变量吗?’然后你只需点击一个‘是’的按钮,就像是它在反向提示你一样,然后你运行另一个实验。
所以这里的含义是,对于科学的生产力提升,对于真理、新信息、新知识的生成,对我来说是最令人兴奋的事情。而捕捉到这一点的公司——别提社会红利了——我认为会赚很多钱。
**特蕾西(43:29):**这实际上让我想起了我们之前讨论过的话题关于零食创新,以及你可以使用类似Factorio的模拟来运行新的工厂流程,看看它们实际上会如何运作以及供应链可能会是什么样子。
但是,不要太过于偏袒我的五年偏见并过分关注ChatGPT,但在上下文窗口扩展方面我们处于什么位置?这是我们去年与您讨论过的事情,我认为对于很多人来说,这可能是像ChatGPT这样的东西最令人恼火的地方之一,事实上你不能真正复制和粘贴太多文本到其中,而且在输出方面受到限制。自上次与您交谈以来有重大进展吗?
**乔希(44:15):**嗯,克劳德3是最大的之一。然后你有各种有趣的合作。你有英伟达和微软做了一个带有大量标记的项目。你有A121实验室有一个叫做侏罗纪的东西。
再次,很多人在这里取得了进展,但我认为我们还有一年的时间,你就能够上传数百份PDF,数千本书,如果它们还没有立即可引用,并且能够检测文档之间的模式变化,总结并揭示关键概念的全部内容。
然后我认为最有价值的事情将是促使你说‘这是你刚刚上传的所有这些文件中你没有问到的问题。’ 所以是的,我认为我们将继续增加上下文窗口。但是话虽如此,创新的大部分历史就是不断增加这个因素,然后另外有人会出现并发明出一些东西。
就像这个因素不再重要一样。我最喜欢的标志性例子是帆船。你会发现那些古老的帆船,它们不断地增加更多的帆。这些东西开始看起来荒谬,然后有人发明了电动机,你就有了摩托艇。
所以我认为我们会有同样的情况,然后人们会发现,嘿,这里有一个比不断增加上下文窗口更好的架构。其中一些可能涉及到记忆检索,能够参考其他模型并进入他们所拥有的档案。所以是的,这将不断扩展。
**乔(45:48):**Josh Wolf,Lux Capital的Josh Wolf,非常感谢你再次出现在Odd Lots。总是很高兴了解你感兴趣的事情的最新动态。
Josh(45:55):<以机器人的声音> 能和你们在一起很棒。
**乔(45:58):**好。你已经开始准备融入并与人类融为一体。非常感谢。太棒了。
首先,Tracy,我真的很喜欢和Josh交谈,也总是很喜欢了解最新动态。不过我真的想要那个叠衣服的机器人。我实际上认为那是一件很重要的事情,如果人们不必担心叠衣服,几乎每个人的生活都会变得更好。
**Tracy (46:37):**我同意,有一个能够做家务任务,比如叠衣服的东西会更有用,而不是告诉你你的丢失的钱包在家里的哪里。
**Joe (46:46):**那就是我想要的。我需要那个叠衣服的机器人。
**Tracy (46:48):**我是说,我知道每个人都喜欢取笑Alexa,但我们家,我们已经装备了所有的灯 -- 它们都是智能灯泡,因为我们没有任何顶灯线路,所以一切都必须是灯。所以如果你没有一个能够一次性打开房间里所有电器的机器人,那将会非常恼人,因为你将会从一盏灯到另一盏灯再到另一盏灯。
所以至少对我的日常生活有所影响。我的意思是,从中可以得出很多东西。我认为从产业政策的角度来看,Josh讨论的一些在中国等地正在发展的机器人能力的想法很有趣,我们可能会遇到另一个芯片、半导体类似的情况,即在10年后我们会意识到机器人的一个主要组件正在其他地方以更高效、更便宜的方式被建造,而不是在美国或西方。
然后我认为有趣的另一件事是跃迁的概念,对吧?所以我认为很多人,包括我自己,在思考技术进步时,会想到这个东西能否稍微快一点?它能否在稍微更大的规模上运行 -- 关于上下文窗口和扩展的问题?
但是正如乔希所说,你可以在技术上实现飞跃,你可以从帆船转变为摩托艇,或者你可以绕过人类的进化。例如,你可以拥有一个类似于剪刀手爱德华的东西,手臂末端带有瑞士军刀。
**乔(48:27):**是的,这对我来说很有道理,如果你从零开始,显然通过数百万年的进化形成的人类形态并不一定是你想要创造或重新创造来执行你需要的各种任务的东西。
我喜欢其中的很多内容。他在最后谈到的那件事,听起来有点像云厨房,但用于生物实验室。所以如果你让所有机器人来做,然后它们可以提示你其他想法。这很有趣。
这个想法似乎令人兴奋,可以积累这些训练数据的方式,就像,你知道的,也许可以解决机械工程问题,但是没有等同于Reddit或维基百科或Google图书或YouTube上的所有文本。因此,必须重新创造这些内容作为建造机器人的瓶颈是非常有趣的。
我喜欢他使用的术语,我想那是“无知套利”,这是一个非常好的术语。所以,是的,在很多纯科学领域,你会得到愿意向那些只是在纸上有一个非常好的想法的人投钱的投资者,那个人很聪明。
**特蕾西(49:35):**嗯,我认为这也是这一特定周期的非同寻常之处,即现有企业的主导地位以及一方面你确实有一堆开源软件,在某种程度上你可以从存储库中获取一些东西,然后向投资者推销并说“这是下一个大事件”,而他们可能没有技术专长来实际评估那个东西。
但是当涉及到像机器人技术这样的实际进展时,似乎你必须在某个方面有优势。你要么必须有资本来部署,要么必须能够访问那些数据。所以我不知道,我猜我们会看到事情如何发展。
**乔(50:16):**我猜明年我们会再次见到乔什。是的,
**特蕾西(50:18):**是的,明年,
**乔(50:19):**明年春天或夏天看看下一个大事件是什么。
**特蕾西(50:22)**希望他能带着某种机器人一起来。
**乔(50:24):**一个可折叠的机器人。
**特蕾西(50:25):**好的。好了,我们结束吧?
**乔(50:28)**就到这里吧。
你可以在Twitter上关注乔什·沃尔夫@wolfejosh。