OpenAI 宣布推出具备推理能力的人工智能模型 o1,内部代号为“草莓”。OpenAI o1 可以推理复杂的任务,并解决比之前科学、编码和数学模型更难的问题。
在测试中,OpenAI o1 在物理、化学和生物学等具有挑战性的基准任务上的表现与博士生类似,其在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13%的问题,而推理模型的得分为 83%,OpenAI o1 的编码能力在 Codeforces 竞赛中达到了第 89 个百分点。
作为早期模型 OpenAI o1 尚不具备 ChatGPT 的许多有用功能,例如浏览网页以获取信息以及上传文件和图像,GPT-4o 在短期内将更加强大。但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。
鉴于此将计数器重置为 1,并将该系列命名为 OpenAI o1。医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。
OpenAI 还发布了 OpenAI o1-mini,这是一种经济高效的推理模型。o1-mini 在 STEM 方面表现出色,尤其是数学和编码——在 AIME 和 Codeforces 等评估基准上的表现几乎与 OpenAI o1 相当。OpenAI 预计,对于需要推理而无需广泛世界知识的应用程序,o1-mini 将是一种更快、经济高效的模型,比 o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代方案,具有更高的速率限制和更低的延迟。