感到Manus压力,OpenAI连夜发布Agent工具!辨识AI Agent优劣专家有话说

ranshaodebing2025-03-12 14:27:08TechWeb.com.cn

3月12日消息,近期,国产通用智能体(Agent)产品Manus风头十足,刷屏海内外社媒。Manus在出道之初就号称:在通用AI助手基准测试GAIA的全部难度级别中的评分甚至远远超越OpenAI的DeepResearch。

Manus掀起的Agent风暴,让OpenAI也坐不住了。

今天凌晨,OpenAI发布一套新的API和内置工具、Agents SDK,专门用于简化Agent应用程序的开发,包括:

1、新的Responses API,将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体(Agent)

2、内置工具,包括网络搜索、文件搜索、计算机使用(Computer Use)

3、新的智能体SDK(Agents SDK),用于编排单智能体和多智能体工作流

4、集成的可视化工具,用于跟踪和检查智能体工作流执行情况

OpenAI称,这些新工具简化了核心智能体(Agent)逻辑、编排和交互,使开发人员更容易开始构建智能体(Agent)。

事实上,早在Manus引燃市场对AI Agent产品的热情之前,人工智能业内对智能体(Agent)的兴趣就很高,这些AI Agent能够自主运行并在各个行业中执行复杂任务,因此这项快速发展的技术被认为为业务提供了变革性的机遇。

不过,与AI Agent热相伴的,还有“Agent Washing”现象,也就是一些Agent厂商夸大其产品的功能,通过重新品牌化现有技术为AI Agent,然而实际上却未能验证这些声称的真实Agent能力。

Gartner研究副总裁孙鑫表示,AI Agent的最佳定义是:利用人工智能进行感知、决策、采取行动,并在数字或物理环境中自主或半自主地追求既定目标的软件实体。真正的AI Agent具备适应、规划和独立行动的能力,从而能够在较长时间内实现组织的目标。所需的能力超越了传统的AI助手、机器人流程自动化(RPA)工具与聊天机器人。

那么,在我们等待Manus邀请码的时期,先看看OpenAI新发布的Agent工具都有哪些能力。

OpenAI几大全新工具,构建更强大智能体

1、Responses API及内置工具

Responses API专为那些希望将OpenAI模型和内置工具轻松组合到应用程序中的开发人员设计。Responses API是一个统一API,可支持多轮交互和工具调用。通过一个Responses API调用,开发人员将能够使用多个工具和模型回合来解决日益复杂的任务。

对于此次Agent工具包的发布带来的影响,OpenAl表示,已将原有的Assistants API关键改进整合进今日发布的Responses API 中,使其更灵活、更快速、更易于使用。

OpenAl认为,Responses API 代表了在 OpenAI上构建代理的未来方向。预计2026年年中,OpenAl将正式弃用 Assistants API。

Responses API将支持新的内置工具,如网络搜索、文件搜索和计算机使用。

其中,“网络搜索工具”可让模型即时访问互联网信息,与驱动ChatGPT Search是相同模型提供支持。在SimpleQA(一个评估LLM在回答简短事实问题方面准确性的基准)上,GPT-4o和GPT-4o mini的得分分别为90%和88%。

“文件搜索”工具支持多种文件类型、查询优化、元数据过滤和自定义重新排序,它可以提供快速、准确的搜索结果。同样,使用Responses API,只需要几行代码就可以集成。

“计算机使用工具”在API中被称为Operator,为了构建能够在计算机上完成任务的代理,开发人员可以在Responses API中使用计算机使用工具,该工具由启用Operator的相同计算机使用代理(CUA)模型提供支持。内置的计算机使用工具捕获模型生成的鼠标和键盘操作,使开发人员能够通过将这些操作直接转换为其环境中的可执行命令来自动化计算机使用任务。

OpenAl表示,这项研究预览模型创造了新的最先进的记录,在OSWorld上实现了38.1%的完全计算机使用任务的成功率,在WebArena上实现了58.1%的成功率,在WebVoyager实现了87%的基于网络的交互成功率。

从今天起,所有开发者均可使用Responses API,且无额外使用费用——相关的token和工具调用将按照OpenAl定价页面上的标准费率收费。

2、新的Agents SDK

OpenAl新的开源代理SDK简化了多代理工作流的编排,并对Swarm进行了重大改进⁠,改进包括:

代理:易于配置的LLM,具有清晰的说明和内置工具。

交接:智能地在代理之间转移控制权。

护栏:用于输入和输出验证的可配置安全检查。

跟踪和可观察性:可视化代理执行跟踪以调试和优化性能。

Agents SDK适用于各种现实世界的应用程序,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售勘探。

例如,Coinbase使用Agents SDK快速原型化和部署AgentKit,在短短几个小时内,Coinbase将来自其开发者平台SDK的自定义操作集成到一个功能齐全的代理中。AgentKit的精简架构简化了添加新代理操作的过程,让开发人员更专注于有意义的集成,而不是导航复杂的代理设置。

Agents SDK可与Responses API和Chat Completions API协同工作。

同时,该SDK也支持其他提供商的模型,只要它们提供Chat Completions类型的API端点。开发者现在就能将其集成到Python代码库中,Node.js支持也即将推出。

另外,OpenAI表示,在接下来的几周和几个月里,计划发布更多的工具和功能,以进一步简化和加速在平台上构建代理应用程序。

AI智能体迎来爆发,如何辨别优劣?

根据此前OpenAI公开的技术发展路线,OpenAI认为AI从大语言模型的突破到真正走向通用人工智能会有几个发展阶段:

第一阶段,语言能力。像ChatGPT这样的可以和人类用自然语言对话的聊天机器人。

第二阶段,推理能力。所谓的“推理”就是可以和人类一样去解决问题。

第三阶段,Agent能力。AI智能体实际上最后会和人类一样去做事情。

DeepSeek的出现,让人们看到了AI大模型推理能力的惊艳表现,现在Manus的出现,又直观展现了Agent对生产生活可能带来变革影响,催化AIAgent产业化发展加速。

据MarketsandMarkets的数据,全球AIAgent市场规模将从2024年的51亿美元增至2030年的471亿美元,年复合增长率达44.8%。

去年底,Gartner发布2025 年十大战略技术趋势,其中,Gartner预测,到2028年至少有15%的日常工作决策将由代理型AI(AI智能体)自主做出,而2024年这一比例为0%。

不过,在龙蛇混杂的AIAgent市场,Gartner研究副总裁孙鑫强调:“鉴于‘Agent Washing’带来的风险,企业机构应采取详尽的方法来评估供应商的产品。建议请求详细的演示,并要求与企业业务应用场景相关的部署参考。同时,对支撑AI Agent发展的架构和技术选择进行严格评估也至关重要。”

同时,孙鑫指出,AI Agent的最佳定义是:利用人工智能进行感知、决策、采取行动,并在数字或物理环境中自主或半自主地追求既定目标的软件实体。真正的AI Agent具备适应、规划和独立行动的能力,从而能够在较长时间内实现组织的目标。所需的能力超越了传统的AI助手、机器人流程自动化(RPA)工具与聊天机器人。(果青)

微软CEO纳德拉:AI像是互联网那样的巨浪 改变了规则

8月18日消息,微软专注于人工智能(AI)技术的研发,并在OpenAI身上投入100多亿美元绝非偶然。该公司首席执行官萨蒂亚·纳德拉(SatyaNadella)认为,AI对公司以及整个行业的影响将与互联网浪潮一样大。早在1995年,...

国产大模型,应该避免走入加拉帕戈斯时刻

在中国,大模型技术进化加速度的同时,淘汰也加速度。短短两年时间:大模型的战争,就从GPT一马当先,到国产大模型百模大战,再到行业格局固定,只剩大模型五虎和几个互联网大厂。在此期间,伴随模型大小一同膨胀的...

AI生产力罗生门:96% 老板力推,77% 员工认为增加工作量

IT之家7月25日消息,研究机构UpworkResearchInstitute公布的最新报告指出,AI正在增加全职员工的工作量。研究发现,77%的员工表示,AI增加了他们的工作量,阻碍了工作效率,并导致倦怠;此外,47%使用AI的员工表示,...

OpenAI CEO阿尔特曼最新思考:AI普惠与AGI的挑战

2月10日消息,在个人博客上发表的一篇新文章中,OpenAI首席执行官山姆・阿尔特曼提出了包括“计算预算”在内的多项“听起来有些奇怪”的想法,旨在“让地球上的每个人都能广泛使用人工智能”,并确保该技术的益处能...

首款女性AI超轻薄本华硕a豆14 Air发布,成为你的“智能闺蜜”

2024年,华硕a豆打破思维定式,深入洞察女性用户对于3C数码产品的真实使用需求,重塑新生,成为第一个照顾女性朋友的智能PC品牌。2月19日晚,#芯之所AI闪光未来#2024年华硕a豆新品发布会召开,行业首款专为女性打造...

上一篇:智子熹源发布“智子能碳大模型”及“智子能碳专家”智能体
下一篇:Anthropic CEO:半年内 AI 将编写 90% 的代码,一年内几乎包揽全部