Anthropic的新AI工具分析你的屏幕并代表你行动 - 彭博社

Shirin Ghaffary

2024-10-22

智能体logo在智能手机上。

摄影师：Gabby Jones/Bloomberg人工智能初创公司Anthropic正在发布一种新工具，可以理解用户计算机屏幕上发生的事情，并为他们完成一系列在线任务——这是科技公司从提供简洁回应的聊天机器人扩展到可以代表个人行动的所谓AI代理的最新例子。这种新功能称为“计算机使用”，可以解释用户在计算机上看到的内容，并在获得许可的情况下，通过浏览网页、点击按钮和输入文本为他们采取行动，Anthropic在周二表示。该公司在最近几周与有限的企业客户测试该服务后，正在向使用其Claude技术的开发者发布测试版。越来越多的AI公司正在投资构建能够在最少人类监督下为用户处理任务的代理，试图实现人工智能在个人和职业生活中显著提高生产力的承诺。周一，微软公司推出了一套旨在为员工发送电子邮件和管理记录的代理工具。Salesforce Inc.宣传了其在上个月Dreamforce活动中为客户服务推出的企业代理应用。Anthropic在代理工具的使用上采取了与许多其他公司不同的方法。它的技术可以实时处理用户计算机屏幕上发生的事情，而不是在后台与各种应用程序集成。该公司表示，这种方法创造了更直观的体验。“这将是第一个能够像人们一样使用计算机的模型，”Anthropic的联合创始人兼首席科学官Jared Kaplan在接受彭博新闻采访时表示。

在一段预先录制的演示中，一名Anthropic员工使用该工具来确定带朋友早晨徒步旅行的后勤安排，欣赏金门大桥的美景。Anthropic的AI代理能够在谷歌上搜索徒步旅行路线，绘制路线图，检查日出时间，并发送包含穿着建议的日历邀请——这一切都不需要人类输入，除了最初的提示。Anthropic将自己定位为一家注重安全的AI公司，但这一新工具可能会引发更多的审查。能够访问用户屏幕活动的技术带来了更高的安全和隐私担忧。例如，当微软推出其AI驱动的“Recall”功能，记录用户在计算机上所做的一切时，因担心软件可能容易受到黑客攻击而引发了反弹。最终，它重新推出了该产品并进行了安全升级。

使用AI代理也提高了任何错误的风险。AI系统在聊天机器人屏幕中产生幻觉响应是一回事；而在代表某人在线或离线行动时犯错则是另一回事。

Kaplan表示，Anthropic已经对该功能进行了红队测试，以发现漏洞，并设定了该工具被允许执行的某些行动的保护措施。例如，该公司表示，用户将被“引导远离”诸如在社交媒体上互动、创建账户和与政府网站互动等活动。此外，开发人员可以设置限制，以规定该工具何时可以访问用户的计算机。他们还可以在过程中的各个步骤中增加人类监督。尽管该工具可以处理计算机上的多种任务，但公司在一篇博客文章中表示，它在一些人类可以轻松完成的操作上仍然存在困难，例如滚动、拖动和缩放。

“这个模型并不完美。它仍然会犯错误，”卡普兰说。“它绝对还不是完全可靠的。我们希望慢慢与开发者进行实验，了解反馈和风险，以便我们做好准备，并在发现潜在滥用的领域改进安全培训。”

公司表示，早期的合作伙伴包括Canva、Asana和Replit，已经在图形设计、项目管理和编码等领域使用该工具。卡普兰说，未来，Anthropic可能会将一些计算机使用功能整合到其消费产品中。

作为周二发布的一部分，Anthropic推出了一个新的升级版Claude 3.5 Sonnet模型，在编码和推理等领域有所改进。该公司还推出了一个更强大的、更便宜、更快的模型Claude 3.5 Haiku。