就在今天,OpenAI正式发布了一个全新的AI Agent工具包,为开发者提供了多个全新的工具和API接口,旨在简化构建智能体的过程,帮助开发者创建能够自动化执行任务的AI智能体(Agent)。这一发布引起了广泛关注,尤其是在AI开发者和技术社区中,大家纷纷表示感谢,并在评论区玩起了“感谢 Manus AI”的梗。

OpenAI AI Agent 工具包发布,全面升级开发者体验
OpenAI的这次更新,聚焦于降低开发者构建生产级智能体的门槛,解决了许多开发者在构建复杂AI Agent时遇到的实际问题。虽然过去一年OpenAI在模型能力方面已取得诸多进展,包括推出更强大的推理能力和多模态交互模型,但在实际开发应用中,构建能高效完成任务的智能体依然存在不少挑战。为了应对这些难题,OpenAI推出了一系列全新的工具,旨在让开发者能够轻松实现AI的多任务自动化。
关键更新:
1. Responses API:
这是OpenAI为构建AI Agent设计的一个全新API接口,它结合了Chat Completions API的简洁性和Assistants API的工具使用能力,旨在为开发者提供一个集成多种功能的新型接口。开发者只需调用一次API,就能够利用内置工具和多轮对话模型,自动解决复杂任务。

2. 内置工具:
- Web 搜索工具(Web Search Tool): 允许智能体访问互联网,获取最新的信息。特别是,GPT-4o和GPT-4o-mini模型的表现非常优秀,能够快速抓取并准确反馈最新资讯。
- 文件搜索工具(File Search Tool): 强化了文档搜索能力,支持多种文件格式,能够优化查询结果并进行元数据过滤,极大提升开发者从海量文档中提取关键信息的效率。
- 计算机使用工具(Computer Use Tool): 这是由Computer-Using Agent (CUA)模型提供支持的工具,能够模拟鼠标和键盘操作,自动化处理各种计算机操作,完美支持像人类操作一样的交互。
3. Agents SDK:
这是基于Swarm框架升级的开源框架,旨在简化多个智能体的工作流程和协调。新SDK支持易于配置的LLM(大语言模型)与内置工具的集成,增强了Agent间的智能交接控制,还增加了安全检查和可视化追踪功能,适用于客户支持自动化、多步研究和内容生成等多种应用场景。

AI Agent的应用场景
新发布的这些工具不仅仅是技术更新,它们的实际应用也展现了AI Agent在工作中的巨大潜力。比如,Hebbia利用Web搜索工具帮助资产管理者和法律专业人士从海量数据中提取有价值的信息;Navan则将文件搜索工具应用于AI旅行助手,为用户提供精准的旅行政策建议;Unify和Luminai利用计算机使用工具,自动化了复杂的操作流程,特别是针对那些没有API接口的传统系统。
AI Agent技术进步:从推荐到购买,再到退货
最令人惊叹的部分是在OpenAI的演示中,展示了一个“个人造型师”AI Agent的实际操作流程。该智能体首先通过文件搜索工具,查阅了用户的服装喜好数据,并从中提取出了个性化穿衣风格。接着,利用Web搜索工具,它帮助用户在东京找到合适的商店,并推荐了Patagonia店铺。最后,计算机使用工具自动操作网页,成功为用户购买了一件黑色Patagonia夹克。这个过程无缝衔接、流畅自然,几乎可以与真实人类操作媲美。
演示中的最后一部分展示了Agent间的智能交接:当用户提出退货请求时,系统自动将任务交给客服Agent,后者完成了退货操作并确保了无缝的用户体验。
新工具定价与未来展望
OpenAI还公布了新工具的定价:
- Web搜索工具: 每千次查询,GPT-4o为30美元,GPT-4o-mini为25美元。
- 文件搜索工具: 每千次查询2.5美元,文件存储费用为0.1美元/GB/天(首GB免费)。
- 计算机使用工具: 每百万token输入3美元,每百万token输出12美元。
这些定价将为开发者和企业提供更多选择,帮助他们更好地控制成本,并根据需求进行灵活调整。
从“工具”到“数字同事”:AI Agent的未来
OpenAI表示,随着模型能力逐步向Agent属性靠拢,他们将在未来继续加深API之间的整合,并不断发布新工具,帮助开发者更好地部署、评估和优化生产环境中的AI Agent。英伟达的CEO黄仁勋曾提到,未来每个公司的IT部门将转变为AI Agent的“HR部门”,这意味着,AI智能体将在各个行业中扮演越来越重要的角色,提升生产力,推动创新。
OpenAI此次发布的工具包为AI Agent的构建提供了强大的基础,使开发者无需再手动组合复杂的API接口和编写繁琐的协调逻辑,极大地简化了开发过程。Responses API将多种功能整合成一个简单的接口,内置工具为AI提供了“感知”和“行动”的能力,而Agents SDK则为多Agent间的协同工作提供了标准化的框架。通过降低技术门槛,OpenAI期望帮助更多企业快速构建和部署AI Agent,将其融入到实际工作流程中,成为真正的“数字助理”甚至“数字同事”。


附上AMA问答精华:
Q:哪种操作系统最适合使用计算机工具?
A:CUA模型主要针对网页任务进行训练,但早期测试显示它在桌面应用程序中表现也很好。不过,我们还在不断改进中。
Q:会提供TypeScript SDK吗?
A:会的,TypeScript SDK很快就会发布。
Q:Responses API会支持Operator功能吗?
A:从今天开始,您就可以在API中使用与Operator相同的功能!我们已经在新的Responses API中部署了CUA模型。
Q:在Agent交接过程中,如何确保个人隐私?
A:我们提供了多种隐私保护机制。开发者可以定义安全措施,使用input_filter限制消息的上下文传递,从而确保用户数据的安全。
结语
随着OpenAI的新工具包发布,AI Agent的潜力正在逐步显现。它不仅改变了开发者构建智能体的方式,还让我们看到了AI在各行业中应用的广阔前景。随着技术的不断进步,我们离一个更加智能化的工作和生活环境又近了一步。