ログイン/ 登録

OpenAI初の無償推論モデルo3-miniをリリース

JinseFinance

2025/02/01 12:06

従う

DeepSeekは、大きなモデリング・シーンに本当にある種の勢いを与えています -

つい先ほど、OpenAIはその最新の推論モデルであるo3-miniシリーズを深夜に緊急リリースしました。

Low、Medium、Highの3つのバージョンがあります。

このうち、o3-miniとo3-mini-highはすでに稼働しています:

公式キャリバーによると、o3シリーズは、低価格の限界を押し広げることを目的としたモデルです。

公式キャリバーによると、o3シリーズのモデルは、低価格の限界を押し広げることを目的としています。

ChatGPTプラス、チーム、プロのユーザーは、本日よりOpenAI o3-miniにアクセスすることができ、1週間後にはエンタープライズアクセスが開始されます。

無料ユーザーは、o3-miniで「検索+理由」を選択して検索を体験することもできます。

おそらくDeepSeekに押されたのでしょうが、OpenAIがユーザーに検索を無料で提供するのはこれが初めてです。OpenAIが推論モデルを無料でユーザーに提供したのはこれが初めてです。

その後のRedditのQ&Aでも、アルトマンCEOは珍しく公の場で反省の弁を述べています：

一方、わずか数時間で、ユーザーはすでに必死にテストを始めています......

STEMのために。STEM 推論に最適化されているが、DeepSeek-R1 と比べるとまだ高価

技術レポートに書かれていることを見てみましょう。

昨年末、OpenAIはo3-ミニプレビューを公開しました。ミニプレビューを公開しました。(

当時、CEOのアルトマンは、正式版は今年の1月にリリースされると予告していました。そして、ddlの最後の瞬間、o3-miniの正式版がついにテーブルに着いた。

全体としては、前世代のo1-miniと同様に、STEM（科学、技術、工学、数学）に最適化されており、miniシリーズのより小さく、より美しいスタイルを継承しています。strong>スタイルを継承しています。

o3-mini（ミディアム）のみ、数学のコーディングにおいてo1シリーズと同等のパフォーマンスを発揮するだけでなく、より反応性が高くなっています。

人間の専門家による評価では、ほとんどの場合、o3-miniはo1-miniよりも正確で明確な答えを出し、56%の支持を得ると同時に、複雑な実世界の問題を扱う際の重大なミスを39%減らしています。strong>39%である。o1-miniは、o1シリーズの中で最もパワフルなモデルである。

60人以上のトップ数学者が作成した「フロンティア数学パズルテスト」においてFrontierMathのパズルテストでも、推理力の高いo3-miniはo1シリーズに比べて大幅な向上を見せた。

Pythonツールと併用した場合、o3-mini（高）は、T3レベルの問題の28％以上を含む、32％以上の問題を初回で解いたとさえ記されています。

科学的能力、PhDレベルの物理と化学の問題で、o3-mini（高）は32%以上の問題を初回で解きました。

科学的能力、博士レベルの物理と化学の問題では、低い推論強度のo3-miniはすでにo1-miniの層を引き離しています。

そしてもちろん、コーディングという重要な能力においても、o3-miniはすべてのレベルでさらに優れています。ミニは、すべてのレベルにおいて、o1シリーズをさらに上回っている。

LiveBenchでのパフォーマンスに基づきます。推論の強さが増すにつれて、o3-miniの優位性が増し続けていることがわかります。

そして、o3-miniが対応しながら上記のリードを達成していることに注目することが重要です。平均レスポンスタイムは7.7秒で、o1-miniの10.16秒より24％向上しています。

最後に、セキュリティ評価の点で、o3-miniはより大幅に優れています。は、いくつかの安全性評価においてGPT-4oを大幅に上回っています。

価格は、インプット/アウトプットと比較してそれぞれDeepSeek-R1の0.14/0.55ドルと比べると、o3-miniはまだまだ高価です。

ネットユーザーによると、DeepSeek-R1は依然としてコストパフォーマンスの王様だそうです。R1 は現時点でもコストパフォーマンスの王者である。

ところで、いつものように、OpenAIはo3-miniの背後にあるチームを発表した。o3-miniの背後にあるチーム。ご覧の通り、今回はウルトラマン自身が率い、研究プロジェクト・ディレクターのカルパス・チャンとクリステン・インが参加しています（このリストには、レン・ホンユウや趙勝嘉など、おなじみの旧友も多数含まれています）。

ネットユーザーはテストで熱狂している

先に述べたように、ユーザーはすでにテストを開始している。
しかし、レビューから判断すると、彼らはo3-miniのパフォーマンスについて複雑な思いを持っているようです。
たとえば、Pythonで4次元体の中でボールを弾ませるというタスクでは、o3-miniは最高のLLMとみなされました:
効果は次のようになる:
その後、何人かのユーザーがDeepSeekで同じタスクを試したところ、結果としてはo3-miniがわずかに勝ったと考えたようです:
より直接的に比較するために、回転する六角形の中でボールを跳ねさせます。
<
o3-miniができるようになった、球体の中に100個の黄色いボールをバウンドさせるという、より複雑なタスクも含まれます:
そして、2匹のヘビが競い合うゲームをo3-miniにデザインさせるというタスクもあります:
2匹のヘビを競わせるには:
<<:
DeepSeekに加えて、大規模で驚くほど壮大な浮遊都市を生成するなど、ユーザーはo1とo3-miniの効果も比較しています。
別のユーザーは、ほとんどすべての大きなモデルを作るのと同じ点を指摘しました。
しかし、有名なポッドキャスト・ブロガーであるLex Fridman氏は、o3-miniについて次のように述べています:
OpenAIのo3-miniは良いモデルだが、DeepSeek R1も同様のパフォーマンスを発揮し、より安価で、推論プロセスを明らかにしている。プロセスを明らかにします。
より優れたモデルが登場しつつありますが（o3-proが待ち遠しい）、「DeepSeekの瞬間」は本物です。5年後も技術史のターニングポイントとして記憶されると思う。
ワンモアシング
ワンモアシング
DeepSeekの瞬間は本物でした。
o3-miniが公開されてからわずか数時間後、ウルトラマン本人と彼のチームがRedditのQ&Aセッションに参加しました。
オープンソースのDeepSeekがここしばらくの間、AIコミュニティをかき回してきたことを考えれば、ウルトラマンのチームが参加するのは驚くことではない。
重み付けされたAIモデルをオープンソース化する問題について、（個人的な意見ですが）私たちは歴史の間違った側にいます。
OpenAIのリードは、これほど大きくはないと認めています。
OpenAIのリードはかつてほど大きくはないだろうと認めている。
DeepSeekは本当に優れており、私たちはより良いモデルを開発し続けますが、リードは小さくなるでしょう。
一方、OpenAIの今後の計画についても明らかにされた。
一方、OpenAIの今後の計画も明らかにされました。
たとえば、アドバンスト・スピーチ・モードへのアップデートが間もなく行われ、OpenAIはそれをGPT-5oではなく単にGPT-5と呼ぶ予定ですが、その具体的な時期はまだ決まっていません。
さらに、推論モデルはより多くのツールを呼び出すこともサポートします。.
最後に、o3の完全版についても触れられています。かなり遠そうだが......