隆重推出面向开发人员的 GPT-5

简介

今天,我们正式在 API 平台上发布了 GPT‑5——这是我们迄今为止在编码和智能体任务方面表现最佳的模型。

GPT‑5 在关键编码基准测试中处于行业领先水平 (SOTA),在 SWE-bench Verified 测试中得分 74.9%,在 Aider polyglot 测试中得分 88%。我们训练了GPT‑5,使其成为真正的编码协作伙伴。它擅长生成高质量代码并处理诸如修复漏洞、修改代码以及解答复杂代码库相关问题等任务。该模型具备可控性和协作性——它能够以极高精度执行非常详细的指令,并在工具调用前及期间提前解释其操作原因。  该模型在前端编码方面也表现出色,在内部测试中,其在 70% 的前端 Web 开发任务中表现优于 OpenAI o3。

我们与初创公司和企业的早期测试者合作,使用真实世界的编码任务对 GPT‑5 进行了训练。除了在编码基准测试中达到最先进水平外,截至目前,GPT‑5 还是[customer A]、[customer B]和[customer C]的默认模型。Cursor 表示,GPT‑5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。Windsurf 指出,GPT‑5 在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。 

GPT‑5 在持续型智能体任务中同样表现卓越——在两个月前刚发布的工具调用基准测试 τ2-bench telecom 中,以 96.7% 的成绩刷新了业界最优水平。在事实准确性基准测试 LongFact 和 FActScore 中,GPT‑5 的错误率仅为 o3 的五分之一。GPT‑5 改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。Manus 表示,GPT‑5 “在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。Inditex 指出:“真正让 [GPT‑5] 脱颖而出的是其推理的深度:细致入微、多层次的答案,体现了对实际主题的深刻理解。”

我们在 API 中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5 支持新的 verbosity 参数(取值:),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5 的 reasoning_effort 参数现在可以设置为最小值,以更快获取答案,无需先进行大量推理。我们还新增了一种工具类型——自定义工具——使 GPT‑5 能够使用纯文本而非 JSON 调用工具。自定义工具支持基于背景信息无关文法的约束配置。

我们将在 API 中发布 GPT‑5 的三个版本——gpt-5gpt-5-mini 和 gpt-5-nano——以赋予开发人员更多灵活性,在性能、成本和延迟之间进行权衡。虽然 ChatGPT 中的 GPT‑5 是一个包含推理、非推理和路由器模型的系统,但 API 平台中的 GPT‑5 则是驱动 ChatGPT 实现最佳性能的推理模型。值得注意的是,GPT‑5 的最小推理模型与 ChatGPT 中的非推理模型是不同的模型,且更适合开发人员使用。

如需了解 ChatGPT 中的 GPT‑5,以及更多关于 ChatGPT 改进的信息,请访问我们的博客[LINK]。如需了解更多关于企业如何积极采用 GPT‑5 的信息,请参阅我们的企业博客

编码

GPT‑5 是我们迄今为止发布的最强大的编码模型。它在编码基准测试和实际应用场景中均优于 o3,并且经过专门优化,在 Cursor、Windsurf 和 Codex CLI 等智能体编码产品中表现尤为出色。GPT‑5 给我们的 Alpha 测试者留下了深刻印象,在他们多次内部私密评估中创下了多项纪录。 

体验地址 https://chat.datapipe.app


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注