DeepSeekは、大きなモデリング・シーンに本当にある種の勢いを与えています -
つい先ほど、OpenAIはその最新の推論モデルであるo3-miniシリーズを深夜に緊急リリースしました。
Low、Medium、Highの3つのバージョンがあります。
このうち、o3-miniとo3-mini-highはすでに稼働しています:

公式キャリバーによると、o3シリーズは、低価格の限界を押し広げることを目的としたモデルです。
公式キャリバーによると、o3シリーズのモデルは、低価格の限界を押し広げることを目的としています。
ChatGPTプラス、チーム、プロのユーザーは、本日よりOpenAI o3-miniにアクセスすることができ、1週間後にはエンタープライズアクセスが開始されます。
無料ユーザーは、o3-miniで「検索+理由」を選択して検索を体験することもできます。

おそらくDeepSeekに押されたのでしょうが、OpenAIがユーザーに検索を無料で提供するのはこれが初めてです。OpenAIが推論モデルを無料でユーザーに提供したのはこれが初めてです。
その後のRedditのQ&Aでも、アルトマンCEOは珍しく公の場で反省の弁を述べています:
一方、わずか数時間で、ユーザーはすでに必死にテストを始めています......
STEMのために。STEM 推論に最適化されているが、DeepSeek-R1 と比べるとまだ高価
技術レポートに書かれていることを見てみましょう。

昨年末、OpenAIはo3-ミニプレビューを公開しました。ミニプレビューを公開しました。(
当時、CEOのアルトマンは、正式版は今年の1月にリリースされると予告していました。そして、ddlの最後の瞬間、o3-miniの正式版がついにテーブルに着いた。
全体としては、前世代のo1-miniと同様に、STEM(科学、技術、工学、数学)に最適化されており、miniシリーズのより小さく、より美しいスタイルを継承しています。strong>スタイルを継承しています。
o3-mini(ミディアム)のみ、数学のコーディングにおいてo1シリーズと同等のパフォーマンスを発揮するだけでなく、より反応性が高くなっています。
人間の専門家による評価では、ほとんどの場合、o3-miniはo1-miniよりも正確で明確な答えを出し、56%の支持を得ると同時に、複雑な実世界の問題を扱う際の重大なミスを39%減らしています。strong>39%である。o1-miniは、o1シリーズの中で最もパワフルなモデルである。

60人以上のトップ数学者が作成した「フロンティア数学パズルテスト」においてFrontierMathのパズルテストでも、推理力の高いo3-miniはo1シリーズに比べて大幅な向上を見せた。
Pythonツールと併用した場合、o3-mini(高)は、T3レベルの問題の28%以上を含む、32%以上の問題を初回で解いたとさえ記されています。

科学的能力、PhDレベルの物理と化学の問題で、o3-mini(高)は32%以上の問題を初回で解きました。
科学的能力、博士レベルの物理と化学の問題では、低い推論強度のo3-miniはすでにo1-miniの層を引き離しています。

そしてもちろん、コーディングという重要な能力においても、o3-miniはすべてのレベルでさらに優れています。ミニは、すべてのレベルにおいて、o1シリーズをさらに上回っている。

LiveBenchでのパフォーマンスに基づきます。推論の強さが増すにつれて、o3-miniの優位性が増し続けていることがわかります。

そして、o3-miniが対応しながら上記のリードを達成していることに注目することが重要です。平均レスポンスタイムは7.7秒で、o1-miniの10.16秒より24%向上しています。

最後に、セキュリティ評価の点で、o3-miniはより大幅に優れています。は、いくつかの安全性評価においてGPT-4oを大幅に上回っています。

価格は、インプット/アウトプットと比較してそれぞれDeepSeek-R1の0.14/0.55ドルと比べると、o3-miniはまだまだ高価です。

ネットユーザーによると、DeepSeek-R1は依然としてコストパフォーマンスの王様だそうです。R1 は現時点でもコストパフォーマンスの王者である。

ところで、いつものように、OpenAIはo3-miniの背後にあるチームを発表した。o3-miniの背後にあるチーム。ご覧の通り、今回はウルトラマン自身が率い、研究プロジェクト・ディレクターのカルパス・チャンとクリステン・インが参加しています(このリストには、レン・ホンユウや趙勝嘉など、おなじみの旧友も多数含まれています)。

ネットユーザーはテストで熱狂している
先に述べたように、ユーザーはすでにテストを開始している。
しかし、レビューから判断すると、彼らはo3-miniのパフォーマンスについて複雑な思いを持っているようです。
たとえば、Pythonで4次元体の中でボールを弾ませるというタスクでは、o3-miniは最高のLLMとみなされました:


効果は次のようになる:

その後、何人かのユーザーがDeepSeekで同じタスクを試したところ、結果としてはo3-miniがわずかに勝ったと考えたようです:

より直接的に比較するために、回転する六角形の中でボールを跳ねさせます。
<
o3-miniができるようになった、球体の中に100個の黄色いボールをバウンドさせるという、より複雑なタスクも含まれます:
そして、2匹のヘビが競い合うゲームをo3-miniにデザインさせるというタスクもあります:
2匹のヘビを競わせるには:
<<:
DeepSeekに加えて、大規模で驚くほど壮大な浮遊都市を生成するなど、ユーザーはo1とo3-miniの効果も比較しています。

別のユーザーは、ほとんどすべての大きなモデルを作るのと同じ点を指摘しました。

しかし、有名なポッドキャスト・ブロガーであるLex Fridman氏は、o3-miniについて次のように述べています:
OpenAIのo3-miniは良いモデルだが、DeepSeek R1も同様のパフォーマンスを発揮し、より安価で、推論プロセスを明らかにしている。プロセスを明らかにします。
より優れたモデルが登場しつつありますが(o3-proが待ち遠しい)、「DeepSeekの瞬間」は本物です。5年後も技術史のターニングポイントとして記憶されると思う。

ワンモアシング
ワンモアシング
DeepSeekの瞬間は本物でした。
o3-miniが公開されてからわずか数時間後、ウルトラマン本人と彼のチームがRedditのQ&Aセッションに参加しました。

オープンソースのDeepSeekがここしばらくの間、AIコミュニティをかき回してきたことを考えれば、ウルトラマンのチームが参加するのは驚くことではない。
重み付けされたAIモデルをオープンソース化する問題について、(個人的な意見ですが)私たちは歴史の間違った側にいます。

OpenAIのリードは、これほど大きくはないと認めています。
OpenAIのリードはかつてほど大きくはないだろうと認めている。
DeepSeekは本当に優れており、私たちはより良いモデルを開発し続けますが、リードは小さくなるでしょう。

一方、OpenAIの今後の計画についても明らかにされた。
一方、OpenAIの今後の計画も明らかにされました。
たとえば、アドバンスト・スピーチ・モードへのアップデートが間もなく行われ、OpenAIはそれをGPT-5oではなく単にGPT-5と呼ぶ予定ですが、その具体的な時期はまだ決まっていません。

さらに、推論モデルはより多くのツールを呼び出すこともサポートします。.

最後に、o3の完全版についても触れられています。かなり遠そうだが......
