前言
昨天刚被爆出要提早两周发布「Strawberry」的OpenAI,在北京时间凌晨1点,没有任何预兆地发布了新模型,简简单单,就叫「o1」(aka草莓)、

「o1」模型可以实现复杂推理,尤其擅长做科学、编码、数学问题,OpenAI再次证明在LLM领域自己依然是先驱者。
什么是「o1」
「o1」的核心特点是能够在给出回复前用更多时间进行思考,这一机制是 LLM 对无限推理模型的迈进,旨在模仿人类去解决复杂问题的思考方式。
它允许AI在给出最终答案之前,进行长时间、多层次的推理,想的更久,得到的也越准确。
通过这种训练模式,AI学会了「深思熟虑」,来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」,在数学、物理、生物等类型的基准测试中,甚至直接超过了人类博士水平

逻辑推理上,「o1」选择用 AIME(美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目,该考试旨在挑战美国最聪明的高中数学学生)进行测试
在2024年AIME考试中,「GPT-4o」平均只解决了 12% (1.8/15) 的问题,而「o1」在每个问题单样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),二如果重新排列1000个样本,成绩甚至可以达到93% (13.9/15)。
13.9的成绩,相当于可以进入全国前500名学生之列,且高于美国数学奥林匹克运动会的临界
在编程能力方面,OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛,采用的评估与竞赛规则非常接近,可以提交 10 份代码验证。

根据测试结果来看,「o1」远超于「GPT-4o」的表现,「o1」得分 1807,排名89位,超过 93% 的人类选手,而「GPT-4o」仅得到 808 分
底层训练方式
「o1」是经过强化学习训练来执行复杂推理任务,在响应用户之前产生一个很长的内部思维链,也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误
「o1」模型训练方法的核心原理是一项名为**「Self-Play」**的技术
简单来说就是让AI与自身的不同版本进行「对弈」或「互动」,这种方法最初在游戏AI领域取得成功,比如AlphaGo和AlphaZero。
整个训练过程可以简单描述为:
-
模型会生成多个推理步骤或思考路径
-
这些路径被评估和比较,选出最优的结果
-
模型从这个过程中学习,改进自己的推理能力
因此,相比于传统生成式大模型一次性生成答案的「快思考」,「o1」虽然回复时间较长,却因为进行了多步骤、迭代式的推理过程,能显著提高了在数学和科学领域的推理能力。
因此,o1的局限性也是较为明显的,响应慢,暂时没有网页浏览和文件处理等GPT 4o具备的功能(后续官方表明会添加)。
「o1」强大功能
OpenAI为了展示「o1」可以做什么,连发了16条视频,具体视频链接放在下方
OpenAI介绍视频:https://www.youtube.com/@OpenAI


在视频中可以看到「o1」在多领域内都有相当好的成绩,能编码、能推理、能理解语言
视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等
如何使用
除了预览版,「o1」还发布了一个更快、更便宜的「 o1-mini」模型。
ChatGPT Plus 和 Team(个人付费版与团队版)用户可以手动选取使用「o1-preview」 或「o1-mini」
目前,每位用户每周仅能给 o1-preview 发送 30 条消息,给 o1-mini 发送 50 条消息。
是的,使用次数很有限!不过 OpenAI 表示正在努力提升用户的可使用次数,并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。
从今天开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息,「o1-mini 」的每周速率限制为 50 条。
符合 5级API使用量(消费类1000$以上且超过1个月的付费用户)的开发人员今天可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。
接下来,OpenAI 除了继续更新模型,推出正式版之外,o1还将陆续添加浏览、文件和图像上传等功能。
以及,除了新的 OpenAI o1 系列之外,还计划继续开发和发布 GPT 系列中的模型。