o1推理OpenAI

OpenAI o1-preview：推理模型的首秀

2025-09-20•8 min read

OpenAI发布o1-preview，通过强化学习增强推理能力。

核心创新

**思维链**：显式展示推理过程
**强化学习**：用结果奖励训练推理
**计算扩展**：推理时间越长效果越好
**自我纠正**：能发现错误并修正

性能表现

数学竞赛：AIME 83%准确率
代码竞赛：Codeforces 89%分位
科学问题：PhD级别问题表现优异

局限

成本高：推理时间是普通模型的10-100倍
通用性：在某些简单任务上不如GPT-4o
透明度：思维链可能被隐藏

本文作者：Jie Zhu | 发布于 2025-09-20