しかし、私たちはスケーリングカーブの初期段階にいるため、強力な事前学習済みモデルから始める限り、複数の企業がこのタイプのモデルを作成することができます。V3の場合、R1を製造するのは非常に安価かもしれない。つまり、私たちは興味深い "クロスオーバー・ポイント "にいるのである。誰もがこれらのモデルのスケーリングカーブをさらに上へと進むにつれて、これはすぐに当てはまらなくなるだろう。輸出規制
上記は、私の関心のある主要なトピックである、中国へのチップ輸出規制の前置きに過ぎません。
企業が強力なAIモデルのトレーニングにどんどんお金を投資している傾向があります!しかし、この曲線は定期的に変化しています!あるレベルのモデル知能を訓練するコストは急速に低下しています。ただ、より賢いモデルを訓練し続けることの経済的価値は非常に大きいため、コストの増加はほとんどすぐに食いつぶしてしまいます。
ディープシークによって開発された効率性の革新は、米国と中国の研究所によってすぐに適用され、米国の研究所がまだ発見していない方法で、数十億ドル相当のモデルを訓練します。これらのモデルは、以前訓練する予定だった数十億ドル相当のモデルを上回るだろうが、それでも数十億ドルのコストがかかる。この数字は、ほとんどすべてにおいて人間よりも賢いAIができるまで増え続けるだろう。
ほとんどすべてにおいて人間より賢いAIを作るには、何百万ものチップと(少なくとも)数百億ドルが必要で、2026年から2027年までに実現する可能性が高いでしょう。DeepSeekのリリースは、これらの計算に常に織り込まれている予想コスト削減曲線にほぼ沿っているため、それを変えることはありません。
つまり、2026-2027年には、私たちは2つのまったく異なる世界にいる可能性があるということです。米国では、複数の企業が(数百億ドルのコストをかけて)必要とされる数百万個のチップを確実に保有するでしょう。
もしそうなれば、私たちは二極化した世界に住むことになり、米国と中国の両方が強力なAIモデルを保有することで、科学技術の猛スピードが加速することになる。私はこれを「データセンターの天才」と呼んでいる。二極化した世界がいつまでも均衡を保つとは限らない。米国と中国がAIシステムで互角になったとしても、大きな産業基盤を持つ中国は、AIだけでなくあらゆる分野で世界の舞台を支配することができる。
中国が何百万ものチップを獲得できなかった場合、我々は(少なくとも一時的に)アメリカとその同盟国だけがこれらのモデルを持つ一極的な世界に住むことになるだろう。一極集中の世界が続くかどうかはわからないが、少なくとも、AIシステムが最終的にはより賢いAIシステムを作るのに役立つため、一時的なリードが永続的な優位に転じる可能性はある。その結果、米国とその同盟国が世界の舞台を支配し、長期にわたって優位に立ち続ける可能性がある世界なのだ。
輸出規制の厳格な実施11だけが、中国が何百万ものチップを入手するのを防ぐことができる。
ディープシークの性能は、輸出規制が失敗したことを意味しません。上でも述べたように、ディープシークは中程度から大量のチップを搭載しているため、強力なモデルを開発・訓練できたとしても不思議ではありません。彼らのリソース制約は米国のAI企業ほど厳しくなく、輸出規制は彼らの「イノベーション」を推進する主な要因ではない。彼らは非常に優秀なエンジニアであり、中国が米国にとって強力な競争相手である理由を示しているだけだ。
DeepSeekは、統制に常に抜け穴があることも示していません。10億ドルの経済活動は隠すことができますが、1000億ドル、あるいは100億ドルを隠すのは難しく、100万個のチップを密輸するのは物理的に困難です。
DeepSeekがこれまでに報告したチップを見ることも有益です。
また、DeepSeekがこれまでに報告したチップを見ることも有益です。SemiAnalysisによると、それはH100、H800、H20の混合で、合計50,000個です。リリース以来、H100は輸出規制で禁止されているため、DeepSeekがチップを保有しているとすれば、正規ルートで入手したものではないはずだ(なお、NvidiaはDeepSeekの進捗状況は「輸出規制に完全に準拠している」と述べている)。H800は、2022年の輸出規制の最初のラウンドで許可されましたが、2023年10月の規制 アップデートで禁止されたため、これらのチップは禁止される前に出荷された可能性があります。h20はトレーニングの効率が低く、サンプリングの効率が高いため、禁止されるべきだと思いますが、まだ許可されています。
これらのことから、ディープシークのAIチップベースのかなりの部分は、まだ禁止されていない(はずの)チップで構成されているようです。これは、輸出規制が実際に機能し、適応していることを示唆している。抜け穴は塞がれつつあるのだ。もし我々が十分に早くそれらを塞ぐことができれば、米国が一極世界を主導する可能性を高めることができるかもしれない。
私が輸出規制と米国の国家安全保障に焦点を当てていることを考えると、はっきりさせておきたい。私はディープシーク自体を敵対者とは考えていませんし、特に焦点を当てているわけでもありません。彼らが行ったインタビューでは、彼らは賢く、好奇心旺盛で、ただ有用な技術を開発しようとしている研究者のように見えました。
しかし、輸出規制は、中国が米国に追いつくのを防ぐための最も強力な手段のひとつである。ますます強力で費用対効果の高い技術が、輸出規制を解除する理由になるという考えは、まったく正当化できない。
脚注
[1]この記事では、欧米のモデル改良の報告については立場を取りません。ここでは、DeepSeekが論文に書かれているような方法でトレーニングを行っているという、DeepSeekの言葉を信じることにします。
[2]ところで、DeepSeekモデルのリリースがNvidiaにとって悪いことではないのは明らかだと思います。このリリースがNvidiaにとって悪いことでない理由は、AI企業にとって悪いことでない理由よりも明らかだ。しかし、この投稿における私の主な目的は、輸出管理ポリシーを擁護することです。
[3]正確には、推論のパラダイムシフトが起こる前のモデルに典型的な、少量のRLトレーニングを含む、事前トレーニング済みモデルです。
[4]いくつかの非常に狭いタスクでより強いパフォーマンスを発揮します 。
[5]これはDeepSeekの論文で引用されている数字です -私はこれをそのまま受け取っているだけで、その部分を疑っているわけではありません。これは、米国企業のモデルのトレーニングコストとの比較であり特定のモデルのトレーニングにかかる費用(600万ドル)と研究開発にかかる総費用(もっと高い)の違いだ。ただし、600万ドルについては完全には断言できません。モデルのサイズは検証可能ですが、他の側面(トークンの数など)はそうではありません 。
[6]いくつかのインタビューで、私は彼らが「50,000台のH100」を持っていたと言いましたが、これは微妙に間違った要約なので、ここで訂正したいと思います。Hopperチップ」で最もよく知られているのはH100(私はこれを指していると考えている)だが、HopperにはH800とH20も含まれており、DeepSeekはこの3つすべてを合計50,000個保有していると報告されている。だからといって状況が大きく変わるわけではないが、訂正しておく価値はあるだろう。
H800とH20については、輸出規制についてお話しするときに詳しくお話しします。
[7]注:輸出規制により、次世代のクラスターではこの差がかなり広がると予想しています。
[8]R1がこれほど注目された主な理由の1つは、モデルによって提示されたアイデアの背後にある推論をユーザーに初めて示したことだと思われます(OpenAIのo1は最終的な答えを示すだけです)。これはユーザーインターフェースの選択であり、モデル自体とは何の関係もないことは明らかでしょう。
[9]中国独自のチップは、いつまで経っても米国製に太刀打ちできないだろう。
References:
[1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-control