OpenAI发布ChatGPT Agent：人类准备好交出操作权了吗？_风闻

大模型之家-带您探索人工智能领域的重磅资讯、解码热点话题1小时前

2025-07-18

北京时间7月18日凌晨，OpenAI如约发布了其最新力作——ChatGPT Agent。

根据CEO Sam Altman和四位OpenAI研究员介绍，ChatGPT Agent是一个具备自主执行复杂任务能力的AI Agent，它不再仅仅“对话”，而是可以打开虚拟机，完成搜索、筛选、判断、执行等一整套流程，最终输出可交付的结果。

ChatGPT Agent的定位非常“简单直接”：一个拥有终端、图形浏览器、文本浏览器的多工具整合智能体系统。功能上，几乎等于一个受控的远程虚拟操作系统。

值得注意的是，ChatGPT Agent可以说是OpenAI自今年以来推出产品的一次阶段性整合与释放：Operator和Deep Research，一个偏执行，一个偏思考，如今彻底融合。

AI真正开始“动手”：ChatGPT Agent的能力边界

与如今大火的“智能体”赛道的产品类似，ChatGPT Agent的最大变化，是让AI真正获得了对数字世界的“动手”能力。Agent模式下，用户不再是通过提示词一步步引导ChatGPT生成答案，而是描述一个需求后，模型启动虚拟机，自主规划任务、调度工具、完成执行。

在演示中，OpenAI展现了其三大基础能力组件：文本浏览器、可视化浏览器和终端。

文本浏览器的职责是爬梳大量信息，完成阅读和筛选。它适合处理长文内容、查找具体数据或者跟踪文献，是Deep Research的延续；可视化浏览器则具备界面识别与交互能力，比如可以点击网页按钮、识别图像、进行鼠标操作等；终端部分支持代码执行、API调用和复杂文件生成——如PPT、Excel、数据分析脚本等。

这些能力的协同，使Agent具备了完整的“感知-决策-执行”链路。比如在一次旅行安排任务中，它先用文本浏览器分析网页信息、提取天气与礼仪信息，再切换至可视化浏览器挑选合适礼服，最后生成整合报告。整个任务历时仅十分钟，远远快于人类的处理效率。

更复杂的场景中，Agent还能够自动调用图像生成API设计贴纸，然后在网站上上传图像、填写参数、放入购物车，最后请用户确认是否付款。在另一个演示中，Agent还连接了Google Drive，提取文档并自动生成PPT；或将日程数据汇总为带地图的电子表格行程表。

这些能力让Agent不仅适用于内容生成，更适用于事务型任务处理，意味着它从“信息辅助”跨越到“决策+执行”。在办公场景中，Agent可以完成会议安排、报告撰写、差旅预订等一系列中层管理事务。在生活场景中，它能规划婚礼、生成资料、预约专家等个性化需求。用一个略显理想主义但已逐步接近现实的说法：ChatGPT Agent，是人人都可以拥有的“高效执行助理”。

基准测试成绩：Agent能力更接近人类水平

与以往OpenAI擅长的语言能力不同，Agent的测试指标更偏向执行能力和任务完成度。在这方面，ChatGPT Agent通过了多个广受认可的专业评测，其结果呈现出一次系统性的跃迁。

在“人类的最后一场大考”（Humanities Last Exam）中，ChatGPT Agent获得了41.6%的成绩，几乎是不带工具模型的两倍。这项测试不仅包含复杂的推理与信息调度任务，还考察模型的工具调度能力。在使用终端、浏览器等资源的前提下，Agent表现出对任务流程的高度掌控。

在WebArena这个网页交互能力评测中，Agent的得分已经接近人类水平。而在SpreadsheetBench，即电子表格操作能力的标准测评中，其分数达到45.5%，较GPT-4o提升一倍。

尤其值得一提的是DSBench测试，它用于衡量数据分析与建模任务的能力。Agent在这一测试中超过了所有此前的SOTA（state-of-the-art）模型，明确表明其在面对现实数据分析任务中，不仅可用，而且强大。

这些数字背后，是OpenAI在工具调度、任务分解、推理执行上的系统性优化。可以说，ChatGPT Agent已不再局限于“语言智能”，而是进入“操作智能”的新阶段。

Operator和Deep Research子产品的融合

在大模型之家看来，ChatGPT Agent并不是从零起步的“创新”：其核心其实是Operator和Deep Research两个子产品的融合。

Operator是今年初推出的图形界面Agent工具，支持鼠标模拟点击、滚动等界面操作；Deep Research则是一个偏内容分析和信息整合的工具，擅长处理复杂文字材料并输出结构化结果。两者原本分别服务不同需求，但用户使用行为暴露出两者之间的边界并不清晰。