OpenAI发布视觉推理模型o3和o4-mini,开源轻量级编程Agent Codex CLI

ziseouran2025-04-17 12:35:13TechWeb.com.cn

4月17日消息,OpenAI发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent——Codex CLI。

OpenAI o3是最强大的推理模型,它非常适合需要多方面分析的复杂查询,它在分析图像、图表和图形等视觉任务上表现尤其出色。o3在解决困难的现实世界任务中比OpenAI o1犯的主要错误少20%,尤其是在编程、商业/咨询和创造性思维等领域表现出色。

OpenAI o4-mini是一个针对快速、成本效益推理进行优化的较小模型。它在大小和成本方面取得了显著的性能,特别是在数学、编码和视觉任务方面。它在非STEM任务以及数据科学等领域的表现也优于其前身o3-mini。

值得注意的是,OpenAI特别强调,o3和o4-mini可以通过API中的函数调用完全访问ChatGPT中的工具,以及用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出详细而周到的答案。

OpenAI举例称,例如,用户可能会问:“与去年相比,加利福尼亚州的夏季能源使用情况如何?”该模型可以在网络上搜索公用事业数据,编写Python代码来构建预测,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起。推理允许模型根据需要对遇到的信息做出反应和调整。例如,他们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。这种灵活的战略方法使模型能够处理需要访问模型内置知识之外的最新信息、扩展推理、综合和跨模式输出生成的任务。

目前,ChatGPT Plus、Pro和Team用户可以使用o3、o4-mini和o4-mini-high,这些模型会取代o1、o3-mini和o3-mini-high。o3和o4-mini通过Chat Completions API和Responses API向开发者开放。

OpenAI预计在几周内发布OpenAI o3-pro,并配备完整工具支持。

同时,OpenAI还宣布开源编程Agent Codex CLI,目前Codex CLI已在github上完全开源。

Codex CLI是一个可以在端侧运行的轻量级编码Agent,它直接在用户的计算机上工作,旨在最大限度地提高o3和o4-mini等模型的推理能力,并将支持GPT‑4.1等其他API模型⁠。(宜月)

马斯克又放豪言:开始在“最强大AI训练集群”上训练 年底开发出全球最强AI

7月23日消息,据媒体报道,马斯克在社交媒体上宣布,旗下AI初创公司xAI已开始在位于田纳西州的所谓孟菲斯超级集群(trainingcluster)上进行训练,号称这是“全球最强大的AI训练集群”。据马斯克介绍,这个集群由100...

XAI大模型Grok-1已正式开源 但并不是在马斯克说的上周

3月18日消息,据外媒报道,马斯克领导的人工智能公司xAI当地时间周日在官网宣布,他们的大语言模型Grok-1已正式开源,发布了基本模型的权重和网络架构,有兴趣的用户可通过github.com/xai-org/grok上的指引使用。从x...

孙正义:和OpenAI CEO讨论打造AI硬件

新浪科技讯北京时间9月27日下午消息,据报道,美东时间周二,前苹果公司设计总监乔尼·艾夫(JonyIve)和美国人工智能研究公司OpenAI首席执行官萨姆·奥特曼(SamAltman)一直在讨论打造一款新的人工智能硬件设备。...

微软MVP示警Copilot商业化存3大风险 客户请谨慎使用

IT之家12月2日消息,微软MVPLoryanStrant近日发布专栏文章,表示部分企业已开始推进部署Copilot,对于企业客户来说,不要太相信Copilot提供相关信息。这主要是因为三方面的原因,其一是当前部署力度还不够,其二是存...

TikTok内测AI生成歌曲功能:用户只需输入歌词文本 可自选曲风

IT之家1月19日消息,TikTok目前正在测试一项新功能:借助大语言模型Bloom的能力,使用AI来生成歌曲。具体来看,用户可在上传内容时提供歌词文本,随后TikTok会引导用户使用“AISong”功能为文本添加声音,用户还可以...

TAG:OpenAI AI
上一篇:小心被骗!人脸识别时的眨眼、张嘴可能是AI生成的视频!
下一篇:美国升级AI算力封锁,英伟达、AMD、英特尔芯片均受限对华出口