OpenAI 发布 o3-mini模型,DataPipe 新增支持

推动成本效益型推理的前沿

我们推出OpenAI o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型,今天已在ChatGPT和API中上线。该模型于2024年12月首次预览,它是一款强大且快速的模型,拓展了小型模型能够实现的边界,提供了卓越的STEM(科学、技术、工程和数学)能力,尤其在科学、数学和编程方面表现出色,同时保持了OpenAI o1-mini的低成本和低延迟。

OpenAI o3-mini是我们首款支持开发者高度要求的功能的小型推理模型,包括函数调用、结构化输出和开发者消息,使其一上线即可用于生产环境。和OpenAI o1-mini与OpenAI o1-preview一样,o3-mini将支持流式传输。此外,开发者可以在三种推理努力选项(低、中、高)之间进行选择,以优化其特定用例。这种灵活性使得o3-mini在处理复杂挑战时可以“更深入地思考”,或者在延迟是关注点时优先考虑速度。o3-mini不支持视觉能力,因此开发者在进行视觉推理任务时应继续使用OpenAI o1。从今天开始,o3-mini将在Chat Completions API、Assistants API和Batch API中向API使用层级3-5的选定开发者推出。

ChatGPT Plus、Team和Pro用户今天起可以使用OpenAI o3-mini,企业用户将在2月获得访问权限。o3-mini将取代模型选择器中的OpenAI o1-mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM和逻辑问题解决任务的理想选择。作为此次升级的一部分,我们将Plus和Team用户的速率限制从每天50条消息提高到150条。此外,o3-mini现在可以与搜索功能结合使用,以找到最新答案并链接到相关网页来源。这是我们努力将搜索功能整合到推理模型中的早期原型。

从今天起,免费计划用户也可以通过在消息编辑器中选择“Reason”或重新生成响应来尝试OpenAI o3-mini。这是首次在ChatGPT中向免费用户开放推理模型。

尽管OpenAI o1仍然是我们更广泛的一般知识推理模型,但OpenAI o3-mini为需要精确性和速度的技术领域提供了一个专业化的替代方案。在ChatGPT中,o3-mini使用中等推理努力,以在速度和准确性之间取得平衡。所有付费用户还可以在模型选择器中选择o3-mini-high,这是一个更智能的版本,生成响应的时间稍长。Pro用户将可以无限制地使用o3-minio3-mini-high

快速、强大且针对STEM推理进行了优化

与OpenAI o1的前身类似,OpenAI o3-mini针对STEM推理进行了优化。在中等推理努力下,o3-mini在数学、编程和科学方面的表现与o1相当,同时提供更快的响应。专家测试人员的评估显示,o3-mini产生的答案更准确、更清晰,推理能力更强,优于OpenAI o1-mini。测试人员56%的时间更倾向于o3-mini的响应,并且在困难的实际问题上,o3-mini的重大错误减少了39%。在中等推理努力下,o3-mini在一些最具挑战性的推理和智能评估(如AIME和GPQA)中与o1的表现相当。

模型速度和性能

与OpenAI o1具有相当的智能水平,OpenAI o3-mini提供了更快的性能和更高的效率。除了上述STEM评估之外,o3-mini在中等推理努力下在额外的数学和事实性评估中也表现出色。在A/B测试中,o3-mini的响应速度比o1-mini快24%,平均响应时间为7.7秒,而o1-mini为10.16秒。

安全性

我们用来教导OpenAI o3-mini安全响应的关键技术之一是深思熟虑的对齐,我们训练该模型在回答用户提示之前对人类编写的安规进行推理。与OpenAI o1类似,我们发现o3-mini在具有挑战性的安全性和越狱评估中显著超过了GPT-4o。在部署之前,我们使用与o1相同的准备方法、外部红队测试和安全评估,仔细评估了o3-mini的安全风险。我们感谢那些在早期访问中测试o3-mini的安全性测试人员。评估细节如下,以及对潜在风险和我们缓解措施有效性的全面解释,可在o3-mini系统卡片中找到。

现在 DataPipe 新增 o3-mini 模型支持,可在 chat.datapipe.app 中查看。


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注