出典:quantum
金融界がディープシークについてパニックを起こし始めるまで約1カ月かかったが、パニックが起きたとき、Nvidiaの時価総額は5000億ドル(およそ3兆6000億ルピー)以上縮小した。これはスターゲイト1つ分に相当する。エヌビディアだけでなく、テスラ、グーグル、アマゾン、マイクロソフトも時価総額が減少した。
スケールAIのアレクサンダー・ワン最高経営責任者(CEO)によると、ディープシークは米国の研究所の最高のモデルに匹敵する2つのAIモデルを連続してリリースした。また、ディープシークは限られた条件下で動作するようで、米国の同業他社よりも訓練コストがはるかに低い。ディープシークが最近開発したモデルの最終的なトレーニング費用はわずか560万ドル(4,060万ルピー)と言われており、これは米国のAI専門家の給与とほぼ同じである。昨年、AnthropicのCEOであるDario Amodeiは、モデルのトレーニング費用は1億ドル(約7億2500万ルピー)から10億ドル(約72億5100万ルピー)であると述べた。OpenAIのGPT-4のコストは、CEOのSam Altmanによれば1億ドル(約7億2500万ルピー)以上だ。DeepSeekはAIのコストについての考え方を破壊しているようで、業界全体に大きな影響を与える可能性がある。
すべてはわずか数週間で起こった。クリスマスの日、ディープシークは推論モデル(v3)をリリースし、多くの注目を集めた。その2番目のモデルであるR1は先週リリースされ、ベンチャーキャピタリストでトランプ大統領顧問のマーク・アンドリーセンは、"これまで見た中で最も素晴らしく印象的なブレークスルーの1つ "と評した。トランプ大統領のAIと暗号の専門家であるデビッド・サックスは、ディープシーク・モデルの進歩は、"AI競争が非常に厳しくなることを示している "と述べた。どちらのモデルも、トレーニングデータを除いて、部分的にオープンソースとなっている。
ディープシークの成功は、AI競争に勝つために何十億ドルもの計算能力が本当に必要なのかという疑問を投げかけた。これまでの常識では、大企業がAIの分野を支配するだろうというものだった。しかし今、大手ハイテク企業は資金を使い果たそうとしているように見える。Scale AIのワン氏が指摘するように、ディープシークは制裁措置のために、どのGPUをいくつ所有しているかを正直に言えない可能性があるため、これらのモデルの実際のコストを把握するのは少し厄介だ。ナプキンの計算では、最適化技術を使用していることが示唆されており、それは彼らが真実を語っていることを意味する)、オープンソースコミュニティがそれを見つけるのに時間はかからないだろう。彼のチームは週末にR1レシピの複製とオープンソース化を開始し、研究者たちがモデルの独自バージョンを作成できるようになれば、「数字が正しいかどうかはすぐにわかるだろう」。
ディープシークとは
2年前に設立され、CEOのWenfeng Liang氏が率いるディープシークは、中国随一の人工知能スタートアップです。浙江大学のエンジニアによって設立されたヘッジファンドからスピンアウトした同社は、汎用AI(AGI)を構築するための「ゲームを変える可能性のあるアーキテクチャとアルゴリズムの革新」に焦点を当てている。OpenAIとは異なり、同社は利益を上げるとも主張している。
2021年、レオンは数千のエヌビディアGPUを購入し始め(米国がこのチップに制裁を科す直前)、2023年には「汎用AIの本質を探求する」、つまり人間と同じくらい賢いAIを目標にディープシークを立ち上げた。OpenAIのCEOであるアルトマンや他の業界リーダーたちと同様、レオンも高邁な主張をたくさんしている。「私たちの目標は汎用AIです」とレオン氏はインタビューで語った。「つまり、限られたリソースでより大きなモデル能力を達成するために、新しいモデルアーキテクチャを検討する必要があるということです」。
ディープシークはまさにそれを実現した。チームは、モデルをより効率的に実行できるようにするために、多くの革新的な技術的アプローチを用い、R1の最終的なトレーニング実行コストは560万ドル(約4,060億ルピー)だったと主張した。ゼロから始めるのではなく、ディープシークは既存のオープンソースモデルを出発点としてAIを構築した。同社のトレーニングデータ・ポートフォリオは公開されていないが、ディープシークは合成データや人工的に生成された情報(AIラボがデータのボトルネックに直面しているようなので、さらに重要になる可能性のあるもの)を使用していることに言及している。
学習データがないため、これがo1の「コピー」であるかどうかは不明です。"うまくいくとわかっているものを複製するのは(比較的)簡単 "であり、"うまくいくかどうかわからないときに、新しいこと、リスクの高いこと、難しいことをするのは非常に難しい "ということです。DeepSeekの主張は、新しい最先端モデルを生み出すのではなく、むしろ古いモデルを複製するだけだということで、OpenAIの投資家であるジョシュア・クシュナーは、DeepSeekは "シリコンバレーの最先端のモデルで訓練されている "と付け加えているようです。
元OpenAIの政策研究者であるMiles Brundage氏によると、R1は2つの重要な最適化技術を使ったという。 より効率的な事前学習と、意識の連鎖を推論するための強化学習だ。DeepSeekは、より安価なGPUを使ってAIを訓練するスマートな方法を見つけたが、その一助となったのは、AIに試行錯誤を通じて段階的に「考える」ことを求める新しい技術(強化学習)を使ったことだ。強化学習)により、人間を模倣するのではなく、問題を段階的に「考える」ようにした。この組み合わせにより、より少ないコンピューティングパワーとコストで、O1レベルの能力を達成することができる。
「DeepSeek v3、およびその前のDeepSeek v2は、GPT-4と基本的に同じモデルですが、GPU側でより多くの利益を得るために、より巧妙なエンジニアリングトリックが施されています」とBrundage氏は述べています。
他のラボもこれらのテクニックを採用していることに注意することが重要です(DeepSeekは、与えられたクエリに対してモデルの機能の一部のみをアクティブにする「エキスパート・ブレンディング」を使用しています。)DeepSeekバージョンは、エキスパートをより細かく分類し、それらを伝達する効率的な方法を開発することで、この概念を革新し、学習プロセス自体をより効率的にしています。DeepSeekチームはまた、DeepSeekMLA(Multiple Subliminal Awareness)と呼ばれる技術も開発しており、情報を保存・検索する方法を圧縮することで、AIモデルの実行に必要なメモリ量を劇的に削減しています。
世界を驚かせたのは、これらのモデルのアーキテクチャだけでなく、AIにおける大きな進歩の間に通常1年以上かかるところを、数カ月という短期間でOpenAIの成果を再現できたことだと、ブランデージ氏は付け加えた。
OpenAIは、高度なAIを構築できるユニークな企業として自らを位置づけており、その公共イメージは、世界最大のAIデータセンター・インフラを構築する投資家の支持を得たばかりだ。しかし、ディープシークの急速な復活は、技術的な優位性が長くは続かないことを示唆している。
「こうした閉鎖的な企業は、ある程度まで、自分たちが最も素晴らしいことをしていると人々に思われることで生き残り、それによって評価を維持していることは明らかです。より多くの資金を調達したり、より多くのプロジェクトを構築するために、少し誇張しているのかもしれません」とフォン・ウェラ氏は言う。「彼らが内部的な強みを誇張しているかどうかについては、誰にもわからないが、それは明らかに彼らに有利に働いている。
お金の話
投資コミュニティは、OpenAIが2022年にChatGPTをリリースして以来、AIに幻滅している。問題は、AIバブルかどうかではなく、"バブルは本当に良いことなのか?"ということだ。(「バブルは不当に否定的な意味合いを与えられている」とディープウォーター・アセット・マネジメントは2023年に書いている)。
投資家たちがAIの仕組みを理解しているかどうかは定かではないが、それでも彼らは、AIが少なくとも広範なコスト削減につながることを期待している。2024年12月に発表されたPwCのレポートによると、調査対象となった投資家の3分の2がAIによって生産性が向上すると予想しており、同数の投資家が利益も増加すると予想している。
ハイプ・サイクルの恩恵を最も受けている上場企業は、AI企業が使用する複雑なチップを製造するエヌビディアだ。人々は、AIのゴールドラッシュでエヌビディアの株を買うことは、シャベルを作る会社に投資することだと信じている。12月27日、エヌビディアの株価は137.01ドル(993.42ルピー)で引け、2023年1月上旬のエヌビディアの株価のほぼ10倍となった。
ディープシークの成功は、エヌビディアの株価急騰の原動力となった投資理論を覆すものです。もし同社が(単にチップを買い増すのではなく)より効率的にチップを使用しているのであれば、他社も同じことを始めるだろう。そうなれば、NVIDIAの最先端チップの市場は、各社が削減を試みる中で、より小さくなる可能性がある。
「NVIDIAの成長期待は少し『楽観的』に見えるので、必要な反応だと思います」と、Databricksの人工知能担当副社長Navin Rao氏は言う。「NVIDIAの現在の収益が脅かされる可能性は低いですが、過去数年の大きな成長が影響を受ける可能性はあります。
ブームは公開市場だけにとどまりません。OpenAIやAnthropicのような新興企業は、ベンチャーキャピタルがこの分野に資金を注ぎ込んでいるため、それぞれ1570億ドル、600億ドル(約4350億ルピー)という目を見張るような評価額を叩き出している。openAIは、収益が37億ドル(約268億ルピー)と予測されているにもかかわらず、2024年には50億ドル(約363億ルピー)の損失を出すと見込んでいる。
ディープシークの成功は、単に多額の資金を投入するだけでは、多くの企業や投資家が考えているほど保護されないことを示している。それは、小さな新興企業が巨大企業に対してより競争力があり、技術革新によって既知のリーダーを混乱させることさえできるということを示唆している。つまり、これは巨大企業にとっては悪いニュースですが、小規模なAIスタートアップにとっては良いニュースかもしれません。
そのため、これは巨大企業にとっては悪いニュースですが、小規模なAIスタートアップ企業にとっては良いニュースかもしれません。"小規模で超強力なモデルを構築できるのであれば、なぜそれを再びスケールアップしないのか?"と彼は尋ねた。"あなたが自然に行ったことは、より安く何かを行う方法を見つけたということです。" "なぜそれをスケールアップし、よりお金がかかるが、より良いバージョンを構築しないのでしょうか?"
最適化は必要
しかし、ディープシークは投資状況を混乱させるだけでなく、ディープシークモデルによる進歩は、ライバル国が輸出規制があっても、米国の最先端技術に簡単に追いつけることを示す明確なシグナルにもなっている。
ランド・コーポレーションの専門家であるレナート・ハイム氏と、オックスフォード大学で産業政策を専門とする博士課程の学生であるシハオ・ホアン氏は、2023年10月に正式に始まった最先端チップの輸出規制は比較的新しく、その影響はまだ十分に表れていないと主張した。
DeepSeekは、限られたコンピューティング能力にもかかわらず、最適化によってイノベーションを起こすことができることを示しており、米国は「スターゲイト」プロジェクトにおける5000億ドル(3625億4000万レアル)のアルトマンとトランプの提携から、生の能力に大きく賭けている。アルトマンとトランプの「スターゲイト」プロジェクト。
「DeepSeekのR1のような推論モデルは、多数のGPUを使用する必要があります。DeepSeekが、より幅広いユーザーにアプリを提供することになると、すぐに問題に直面したのと同じです」と、Brundage氏は述べています。「このことと、強化学習を拡大することで、DeepSeekのモデルが現在よりもさらに強力になることを考えると、米国がGPUの効果的な輸出規制を実施することは、これまで以上に重要です。
DeepSeekの成果が説明通りであることに懐疑的な意見もある。「シティのアナリスト、アティフ・マリク(Atif Malik)氏はリサーチノートの中で、「我々は、ディープシークの成果が、最終的なモデルのベースとなる大規模言語モデルの微調整や構築に高度なGPUを使用することなく達成されたことに疑問を抱いている。DeepSeekが500万ドルでOpenAIを複製した』という主張は完全に虚偽のようで、これ以上議論する価値はないと考えています」と、バーンスタインのアナリスト、ステイシー・ラスガング(Stacey Rathgang)氏は自身のレポートで述べています。
また、輸出規制が逆効果に思える人もいます。ライバル国の動きを鈍らせるどころか、イノベーションを強いることになるからです。米国が先進的なチップへのアクセスを制限する一方で、DeepSeekやアリババのTongyi Qianqianのような企業は、独自のチップを開発する一方で、オープンソース技術を活用するためにトレーニング技術を最適化するなど、創造的な解決策を見出しています。
これが一般的なAIにとってどのような意味を持つのか、疑問に思う人がいるのは間違いない。(昨年12月、OpenAIのアルトマンは、一般的なAIのハードルを、「人類を向上させる」ものから、「人々が考えるよりもはるかに取るに足らない」ものに引き下げたようだ)。AIの超知能はまだ大部分が想像の産物であるため、ディープシークがその方向へ合理的な一歩を踏み出したことは言うまでもないが、それが可能かどうかさえわからない。その意味で、同社のクジラのロゴは正しい。この業界は「エイハブ」(『白鯨』に登場する架空の人物)だらけなのだ。人工知能の終着点は誰にもわからない。
将来のAIリーダーに必要な条件
人工知能は常に過剰開発の物語でした。データセンターは小さな国ほどのエネルギーを消費し、トレーニングには何十億ドルもかかり、ゲームをプレイできるのはハイテク大手だけです。多くの人にとって、DeepSeekの登場は、その見方を完全に覆したようです。
ディープシークのようなモデルは、訓練コストを下げることで環境破壊的なAIの問題を解決できるように思えるが、残念ながら、そう単純ではない。ブランデージもフォン・ヴィラも、より効率的なリソースとは、企業がより優れたモデルを得るためにより多くの計算能力を使う可能性があることを意味すると主張している。Von Villa氏はまた、これは小規模な新興企業や研究者が最高のモデルに簡単にアクセスできるようになることを意味するため、コンピューティングの必要性は高まる一方だとも述べている。
ディープシークによる合成データの利用も革命的なものではないが、AIラボがインターネット全体を破壊することなく、有用なものを生み出すことが可能であることを示している。しかし、その破壊はすでに行われている。インターネットは1つしかなく、次世代の基礎となるモデルはすでに訓練されている。合成データは、より多くのトレーニングデータを見つけるという問題に対する完全な解決策ではないが、有望なアプローチである。
DeepSeekの最も重要な点は、より安価であることだ。技術に詳しくなくても、強力なAIツールが近いうちにもっと手頃な価格になるかもしれないことは理解できるだろう。AIのリーダーたちは、近いうちに進歩が訪れると約束している。起こりうる変化のひとつは、誰かが自分のガレージで最先端のモデルを作れるようになることだ。
汎用AI競争は、大部分が想像の産物だ。ディープシークは、お金だけでは企業がこの分野で主導権を握ることはできないことを強く訴えた。その長期的なインパクトは、我々が知っているAI業界を再構築するかもしれない。