OpenAI 新一代大模型「o1」，突破LLM推理极限

前言#

昨天刚被爆出要提早两周发布「Strawberry」的OpenAI，在北京时间凌晨1点，没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka草莓）、

「o1」模型可以实现复杂推理，尤其擅长做科学、编码、数学问题，OpenAI再次证明在LLM领域自己依然是先驱者。

什么是「o1」#

「o1」的核心特点是能够在给出回复前用更多时间进行思考，这一机制是 LLM 对无限推理模型的迈进，旨在模仿人类去解决复杂问题的思考方式。

它允许AI在给出最终答案之前，进行长时间、多层次的推理，想的更久，得到的也越准确。

通过这种训练模式，AI学会了「深思熟虑」，来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」，在数学、物理、生物等类型的基准测试中，甚至直接超过了人类博士水平

逻辑推理上，「o1」选择用 AIME（美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目，该考试旨在挑战美国最聪明的高中数学学生）进行测试

在2024年AIME考试中，「GPT-4o」平均只解决了 12% (1.8/15) 的问题，而「o1」在每个问题单样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，二如果重新排列1000个样本，成绩甚至可以达到93% (13.9/15)。

13.9的成绩，相当于可以进入全国前500名学生之列，且高于美国数学奥林匹克运动会的临界

在编程能力方面，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，可以提交 10 份代码验证。

根据测试结果来看，「o1」远超于「GPT-4o」的表现，「o1」得分 1807，排名89位，超过 93% 的人类选手，而「GPT-4o」仅得到 808 分

底层训练方式#

「o1」是经过强化学习训练来执行复杂推理任务，在响应用户之前产生一个很长的内部思维链，也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误

「o1」模型训练方法的核心原理是一项名为**「Self-Play」**的技术

简单来说就是让AI与自身的不同版本进行「对弈」或「互动」，这种方法最初在游戏AI领域取得成功，比如AlphaGo和AlphaZero。

整个训练过程可以简单描述为：

模型会生成多个推理步骤或思考路径
这些路径被评估和比较，选出最优的结果
模型从这个过程中学习，改进自己的推理能力

因此，相比于传统生成式大模型一次性生成答案的「快思考」，「o1」虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。

因此，o1的局限性也是较为明显的，响应慢，暂时没有网页浏览和文件处理等GPT 4o具备的功能（后续官方表明会添加）。

「o1」强大功能#

OpenAI为了展示「o1」可以做什么，连发了16条视频，具体视频链接放在下方

OpenAI介绍视频：https://www.youtube.com/@OpenAI

在视频中可以看到「o1」在多领域内都有相当好的成绩，能编码、能推理、能理解语言

视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等

如何使用#

除了预览版，「o1」还发布了一个更快、更便宜的「 o1-mini」模型。

ChatGPT Plus 和 Team（个人付费版与团队版）用户可以手动选取使用「o1-preview」或「o1-mini」

目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

是的，使用次数很有限！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。

从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息，「o1-mini 」的每周速率限制为 50 条。

符合 5级API使用量（消费类1000$以上且超过1个月的付费用户）的开发人员今天可以开始使用 API 中的两种模型进行原型设计，速率限制为 20 RPM。

接下来，OpenAI 除了继续更新模型，推出正式版之外，o1还将陆续添加浏览、文件和图像上传等功能。

以及，除了新的 OpenAI o1 系列之外，还计划继续开发和发布 GPT 系列中的模型。