隆重推出面向开发人员的 GPT-5

简介

今天，我们正式在 API 平台上发布了 GPT‑5——这是我们迄今为止在编码和智能体任务方面表现最佳的模型。

GPT‑5 在关键编码基准测试中处于行业领先水平 (SOTA)，在 SWE-bench Verified 测试中得分 74.9%，在 Aider polyglot 测试中得分 88%。我们训练了GPT‑5，使其成为真正的编码协作伙伴。它擅长生成高质量代码并处理诸如修复漏洞、修改代码以及解答复杂代码库相关问题等任务。该模型具备可控性和协作性——它能够以极高精度执行非常详细的指令，并在工具调用前及期间提前解释其操作原因。该模型在前端编码方面也表现出色，在内部测试中，其在 70% 的前端 Web 开发任务中表现优于 OpenAI o3。

我们与初创公司和企业的早期测试者合作，使用真实世界的编码任务对 GPT‑5 进行了训练。除了在编码基准测试中达到最先进水平外，截至目前，GPT‑5 还是[customer A]、[customer B]和[customer C]的默认模型。Cursor 表示，GPT‑5“具有显著的智能，易于操控，甚至拥有其他模型中不具备的人格特质”。Windsurf 指出，GPT‑5 在其评估中达到最先进水平，且“与其他前沿模型相比，工具调用错误率仅为其一半”。

GPT‑5 在持续型智能体任务中同样表现卓越——在两个月前刚发布的工具调用基准测试 τ2-bench telecom 中，以 96.7% 的成绩刷新了业界最优水平。在事实准确性基准测试 LongFact 和 FActScore 中，GPT‑5 的错误率仅为 o3 的五分之一。GPT‑5 改进的工具智能使其能够可靠地串联数十次工具调用（无论串行还是并行），保持路径一致性，这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令，更好地处理工具错误，并在长背景信息内容检索方面表现出色。Manus 表示，GPT‑5 “在各种智能体任务中表现出色，即使在未修改任何代码或调整提示的情况下”。Inditex 指出：“真正让 [GPT‑5] 脱颖而出的是其推理的深度：细致入微、多层次的答案，体现了对实际主题的深刻理解。”

我们在 API 中引入了新功能，让开发人员对模型回复具有更多控制权。GPT‑5 支持新的 verbosity 参数（取值：低、中、高），帮助控制控制回答是简短扼要还是详尽全面。GPT‑5 的 reasoning_effort 参数现在可以设置为最小值，以更快获取答案，无需先进行大量推理。我们还新增了一种工具类型——自定义工具——使 GPT‑5 能够使用纯文本而非 JSON 调用工具。自定义工具支持基于背景信息无关文法的约束配置。

我们将在 API 中发布 GPT‑5 的三个版本——gpt-5、gpt-5-mini 和 gpt-5-nano——以赋予开发人员更多灵活性，在性能、成本和延迟之间进行权衡。虽然 ChatGPT 中的 GPT‑5 是一个包含推理、非推理和路由器模型的系统，但 API 平台中的 GPT‑5 则是驱动 ChatGPT 实现最佳性能的推理模型。值得注意的是，GPT‑5 的最小推理模型与 ChatGPT 中的非推理模型是不同的模型，且更适合开发人员使用。

如需了解 ChatGPT 中的 GPT‑5，以及更多关于 ChatGPT 改进的信息，请访问我们的博客[LINK]。如需了解更多关于企业如何积极采用 GPT‑5 的信息，请参阅我们的企业博客⁠。

编码

GPT‑5 是我们迄今为止发布的最强大的编码模型。它在编码基准测试和实际应用场景中均优于 o3，并且经过专门优化，在 Cursor、Windsurf 和 Codex CLI 等智能体编码产品中表现尤为出色。GPT‑5 给我们的 Alpha 测试者留下了深刻印象，在他们多次内部私密评估中创下了多项纪录。

体验地址 https://chat.datapipe.app

隆重推出面向开发人员的 GPT-5

简介

编码

评论

发表回复取消回复

隆重推出面向开发人员的 GPT-5

简介

编码

评论

发表回复 取消回复

发表回复取消回复