弱気相場にもかかわらず、ハッシュドは2023年にブロックチェーンベンチャーに2844万ドルを投資
Econovillが報じたところによると、Hashedの戦略的焦点は、ブロックチェーンインフラストラクチャを強化し、コンテンツと知的財産権(IP)を統合することによって、ユーザーベースの拡大を目指すアーリーステージのベンチャー企業に置かれている。

アナリストやソフトウェア・エンジニアとして働いていたプロの投資家がエヌビディアについて弱気な記事を書き、それがツイッターのブロガーたちによって大量にリツイートされ、エヌビディアの株価急落の大きな「犯人」となった。エヌビディアの時価総額は6000億ドル近くも蒸発し、これは特定の上場企業にとって1日で最大の下落幅となりました。
ジェフリー・エマニュエル投資家の主な主張は、ディープシークがウォール街、大手ハイテク企業、そしてエヌビディアが作り上げた強気を突き、エヌビディアが過大評価されているということに他なりません。
ジェフリー・エマニュエル氏は、NVIDIAが現在の成長軌道と収益性を維持するには、その評価が示唆するよりもはるかに険しい道のりに直面すると述べています。エヌビディアには、アーキテクチャの革新、顧客の垂直統合、ソフトウェアの抽象化、効率性の飛躍的向上、製造の民主化という5つの異なる攻撃方向があり、そのうちの少なくとも1つがエヌビディアの利益率や成長率に大きな影響を与えることに成功する可能性は高いと思われる。現在の評価では、市場はこれらのリスクを考慮していません。
この報告書のおかげで、エマニュエル氏は突如ウォール街の人気者となり、一部の業界投資家によると、多くのヘッジファンドがNVIDIAとAIについて彼の話を聞くために1時間1000ドルを支払っているという。あまりの忙しさに声がかすれていたが、お金を数える彼の目は燃えていた。
レポート全文はこちら。参考研究全文。
様々なロング/ショート・ヘッジファンド(ミレニアムやバリヤスニーでの勤務を含む)で投資アナリストとして約10年を過ごし、2010年(ジェフ・ヒントンがまだ指揮を執っていた頃)からディープラーニングを研究している数学とコンピュータのジャンキーである私としては、このレポートは良いものだと思わずにはいられません。(Geoff Hintonがまだ制約付きボルツマンマシンについて話していた頃、すべてがまだMATLABを使ってプログラムされていた頃、研究者たちはまだサポートベクターマシンを使うよりも手書きの数字を分類する方が良い結果を得られることを証明しようとしていた頃)、私はAI技術の発展と株式市場における株式評価との関係について、かなりユニークな視点を持っていると思う。
ここ数年、私は開発者としてより多くの仕事をしており、さまざまな形態のAIモデル/サービスを扱う人気のあるオープンソースプロジェクトをいくつか持っています(たとえば、LLM Aided OCR、Swiss Army Llama、Fast VectorSimilarity, Source to Prompt, Pastel Inference Layerなど)。基本的に、私は日常的にこれらの最先端モデルを集中的に使用しています。リクエストが尽きないように3つのClaudeアカウントを持っていて、ChatGPT Proが稼動した数分後にサインアップしました。
また、最新の研究にも目を通すようにしており、主要なAI研究所が発表した主要な技術報告論文はすべて熟読しています。その結果、私はこの分野と物事がどのように進化しているかについて、かなりよく理解しているつもりだ。同時に、私は生涯で数多くの銘柄を空売りし、バリュー・インベスターズ・クラブのベスト・アイデア賞を2度受賞している(TMSロングとPDHショート)。
私がこのようなことを言うのは、自慢するためではなく、テクニシャンやプロの投資家に対して絶望的にナイーブに聞こえることなく、このテーマについて語ることができることを実証するためです。もちろん、私よりも数学や科学に精通している人はたくさんいますし、私よりも株式市場のロング・ショート投資に長けている人はたくさんいますが、私のようにベン図の真ん中にいることができる人はあまりいないと思います。
それにもかかわらず、ヘッジファンドの世界で友人や元同僚に会って話をすると、すぐにエヌビディアの話になる。無名の会社が、イギリス、フランス、ドイツの株式市場の合計を上回る時価総額にまで成長することは、そうそうあることではない!当然、友人たちは私がこのことについてどう考えているかを知りたがる。私は、この技術がもたらす長期的な変革の影響を固く信じているからだ。私は、この技術が今後5~10年の間に、私たちの経済と社会のあらゆる側面に、本質的に前例のないような革命をもたらすと心から信じている。
しかし、過去1年ほどの間、バリュエーションが私の好みからすると高すぎると思っていたにもかかわらず、最近のいくつかの展開により、見通しについてより慎重になり、割高に見えるときにはコンセンサスを疑うという直感に少し傾いています。賢者は始めに信じ、愚か者は終わりに信じる』という古いことわざが有名なのには理由がある。
私が躊躇する理由の進行に入る前に、Nvidia株の強気について簡単に振り返ってみましょう。エヌビディア株の強気については、基本的に誰もが知っている。ディープラーニングと人工知能はインターネット以来の変革技術であり、私たちの社会のすべてを根本から変えることが約束されている。業界の総資本支出のうち、学習と推論のインフラへの支出に占める割合から見れば、NVIDIAはほぼ独占に近い立場にある。
マイクロソフト、アップル、アマゾン、メタ、グーグル、オラクルなど、世界最大かつ最も収益性の高い企業のいくつかは、単に後れを取るわけにはいかないため、何としてでもこの分野で競争力を維持しようと決意しています。設備投資額、使用電力量、新しいデータセンターの面積、そしてもちろんGPUの数はすべて爆発的に増加しており、その勢いは衰える気配がない。NVIDIAは、データセンター向けのハイエンド製品で90%以上という驚異的な粗利益を得ることができます。
私たちはまだ強気市場の表面を引っ掻いたに過ぎません。すでに非常に楽観的な人たちをもさらに楽観的にさせるような、より多くの側面が今はある。人型ロボットの台頭はさておき(洗濯、掃除、片付け、料理など、現在は非熟練労働者(あるいは熟練労働者)を必要としている多くの仕事を素早くこなせるようになったら、ほとんどの人は驚くのではないだろうか)、倉庫の管理やフォークリフトの運転など、ほとんどの人がまだ検討すらしていない要因がある。
スマートな人々が話している主なトピックの1つは、「スケーリングの新しい法則」の台頭です。2012年にAlexNetが登場し、2017年にTransformerアーキテクチャが発明されて以来、AIの進歩を牽引してきたオリジナルのスケーリングの法則は、学習前のスケーリングの法則であった:学習データとして使用するトークンの値が高いほど(現在では数兆単位)、学習するモデルのパラメータ数が多いほど、それらのトークンを使用してそれらのモデルを学習するために消費する計算能力が高いほど(FLOPS)。(FLOPS)、最終的なモデルは、非常に有用なさまざまな下流タスクにおいて、より優れたパフォーマンスを発揮します。
それだけでなく、この改善はある程度予測可能であり、OpenAIやAnthropicのような主要なAIラボは、最新のモデルがどれほど優れたものになるかを、実際にトレーニングを始める前から正確に把握しているほどです。-場合によっては、最終モデルのベンチマーク値を数パーセントの誤差で予測することさえできる。この「原始拡張の法則」は非常に重要だが、未来を予測するためにこれを使う人たちを常に怪しくしている。
まず第一に、私たちは世界中に蓄積された高品質のトレーニングデータセットを使い果たしてしまったように思える。もちろん、これは完全な真実ではない。適切にデジタル化されていない古い書籍や雑誌はまだたくさんあるし、デジタル化されていても、トレーニングデータとして適切にライセンスされていない。問題なのは、1500年から2000年にかけて「プロが」作成した英語コンテンツの総計を信用したとしても、15兆トークン近くの学習用コーパスの規模になると、割合から見れば大した量ではないということだ。現在のフロンティアモデルのサイズです。
この数字の信憑性を簡単に確認すると、現在までにGoogle Booksは約4000万冊の書籍をデジタル化しています。平均的な書籍の単語数が5万から10万、トークンの数が6万5000から13万だとすると、書籍だけで2.6兆から5.2兆のトークンを占めることになります。もちろん、そのかなりの部分は、厳密に合法かどうかにかかわらず、大規模な研究室で使用されるトレーニング・コーパスにすでに含まれている。また、学術論文も多く、arXivサイトだけでも200万件以上ある。米国議会図書館には30億ページ以上のデジタル化された新聞がある。合計すると、7Tトークンに達するかもしれませんが、そのほとんどは実際にトレーニング・コーパスに含まれているため、残りの「増分」トレーニング・データは、全体から見ればそれほど重要ではないかもしれません。
もちろん、より多くのトレーニングデータを収集する方法は他にもあります。たとえば、YouTubeの動画をすべて自動的に書き起こし、そのテキストを使用することもできます。これは役に立つかもしれないが、世界に関する知識の有用な情報源である、定評のある有機化学の教科書に比べれば、はるかに質が低いことは間違いない。つまり、原始的なスケールの法則という点で、私たちは常に「データの壁」の脅威に直面しているのだ。GPUにもっと設備投資をし、データセンターを建設し続けることは可能だが、すでに世の中にあるものを正しく補完するような、人間の役に立つ新しい知識を大規模に生み出すことははるかに難しい。現在、これに対する興味深い反応として、テキストそのものがLLMの出力である「合成データ」の台頭がある。これは少しばかげているように見えるかもしれないが、少なくとも数学、論理学、コンピュータ・プログラミングの分野では、「自分でモデルを提供することによって、そのモデルの質を向上させる」ことは、実際には非常にうまく機能している。
その理由はもちろん、物事の正しさを機械的にチェックし、証明できる分野だからだ。巨大な数学の定理やPythonスクリプトからサンプルを取り出し、それが正しいかどうかを実際にチェックし、正しいデータだけをデータベースに含めることができるわけです。こうすることで、少なくともこれらの領域では、質の高いトレーニングデータのセットを大幅に拡大することができる。
テキストに加えて、AIを訓練するために他のあらゆる種類のデータを使うことができる。例えば、1億人分の全ゲノム配列データ(1人分で約200GB~300GBの非圧縮データ)をAIに学習させたらどうなるでしょうか?その大部分は2人の人間の間でほとんど同じであるにもかかわらず、それは明らかに大量のデータだ。
生のゲノムのサイズは、マーカーの数と直接比較できるものではありません
ゲノムデータは、テキストとは情報量が大きく異なります。非常に異なります
冗長性の高いデータの学習価値は不明です
ゲノムデータの処理に必要な計算量も異なります
しかししかし、それでも、将来的に訓練できるもう1つの素晴らしい情報源であることに変わりはありません。
そのため、私たちはより多くの追加訓練データを得ることが期待できますが、近年の訓練コーパスの増加速度を見れば、私たちがより賢くなるという究極の目標に近づくのに役立つ「普遍的に有用な」知識に関するデータの利用可能性において、すぐにボトルネックにぶつかることがわかります。ジョン・フォン・ノイマンの人工超知能は、ジョン・フォン・ノイマンよりも10倍賢く、人間に知られているあらゆる専門分野で世界的な専門家になる。
利用可能なデータ量が限られていることのほかに、「事前訓練スケーリングの法則」の支持者の心に常に潜んでいる懸念がある。その1つが、モデルのトレーニングが終わった後、この計算インフラをどうするかということだ。次のモデルをトレーニングするのか?もちろんそうすることもできるが、GPUのスピードとキャパシティが急速に向上していること、そして経済的なコンピューティングにおける電力やその他の運用コストの重要性を考えると、2年前のクラスタを使って新しいモデルをトレーニングすることは本当に意味があるのだろうか?きっと、建設したばかりの真新しいデータセンターを使う方がいいに違いない。このデータセンターは、古いものと比べて10倍のコストがかかり、より高度なテクノロジーのおかげで20倍の性能を発揮する。問題は、ある時点でこれらの投資の初期費用を償却し、(できればプラスの)営業利益の流れでそれを回収する必要があるということだ。
市場はAIに熱中するあまり、この点を見失い、OpenAIのような企業が最初から営業損失を積み上げる一方で、その後の投資で高い評価を得ることができるようになっている(もちろん、彼らの功績として、非常に急成長している収益も示している)。しかし、最終的には、市場サイクル全体を通してこれを維持するためには、これらのデータセンターのコストを最終的に回収する必要があり、理想的には利益を上げ、長期的にはリスク調整ベースで他の投資機会と競争できるようにする必要があります。
さて、これが事前に訓練されたスケーリングの法則です。では、この「新しい」拡大法則とは何でしょうか?まあ、それはここ1年で人々が注目し始めたもので、時間計算の拡張についての推論だ。それ以前は、プロセスで費やす計算の大部分は、モデルを作成するための事前学習計算だった。一度訓練されたモデルがあれば、そのモデルについての推論(つまり、質問をしたり、LLMに何らかのタスクを実行させたりすること)は、ある程度の計算量しか使いませんでした。
重要なのは、推論計算の総量(FLOPS、GPUメモリフットプリントなど、さまざまな方法で測定)は、事前学習段階で必要な計算量よりもはるかに少ないということです。もちろん、推論計算の量は、モデルのコンテキストウィンドウのサイズと一度に生成される出力の量を増やすにつれて増加します(しかし、研究者はこの分野で驚くべきアルゴリズムの改善を行っています。)しかし、基本的に最近まで、推論計算は一般的に学習計算よりもはるかに負荷が低く、基本的に処理されるリクエスト数に線形に比例していました。例えば、ChatGPTテキスト補完の需要が多ければ多いほど、推論計算も消費されます。
昨年導入された革新的な思考連鎖(COT)モデル、特にOpenAIのフラッグシップモデルであるO1(しかし最近、DeepSeekの新しいモデルであるR1でも採用されました!を議論する)、すべてが変わった。推論計算の量をモデルによって生成される出力テキストの長さに直接スケーリングする代わりに(これは、より大きなコンテキストウィンドウやモデルサイズなどに比例して増加します)、これらの新しいCOTモデルは中間の「論理トークン」を生成します。
これは、推論が計算される方法における実質的な変化を表しています。現在では、この内部思考プロセスで使用するトークンが多ければ多いほど、ユーザーに提供する最終的なアウトプットの質が向上します。実質的には、作業者が自分の仕事をダブルチェックできるように、タスクを完了するためのより多くの時間とリソースを与えるようなもので、同じ基本的なタスクをいくつかの異なる方法で完了し、その結果が同じであることを確認する。
このアプローチは、ほとんど息をのむほど効果的であることが証明されました。それは、「強化学習」の待望のパワーとTransformerアーキテクチャーのパワーを活用したものです。これはTransformerモデルの最大の弱点の1つである「幻覚を見る」傾向に直接対処している。
基本的に、トランスフォーマーが各ステップで次のマークアップを予測する際に機能する方法は、最初のレスポンスで間違った「道」を進み始めると、ほとんど前言撤回する子供のようになり、なぜ実際に正しいのかを説明するために物語をでっち上げようとします!自分の言っていることが正しいわけがないと気づくために、途中で常識を働かせるべきだったにもかかわらず。
モデルは常に内部的に一貫性を保とうとし、連続するトークンの各世代が以前のトークンやコンテキストから自然に来るようにするため、軌道修正や後戻りが非常に難しくなります。推論プロセスを多くの中間段階に分けることで、多くの異なるアプローチを試し、どれがうまくいくかを確認し、物事をでっち上げていないというかなり高いレベルの確信に達するまで、軌道修正と他の試みを続けることができます。
このアプローチで最も変わっているのは、うまくいくという事実とは別に、ロジック/COTトークンを使えば使うほどうまくいくということだ。COT推論トークンの数が増えれば増えるほど(浮動小数点またはメモリ内で、より多くの推論計算が必要になります)、正しい答えを出す確率が高くなります。ステップになります。
私は多くの実体験から、Anthropicのクロード3.5ソネットモデルはPythonプログラミングでは素晴らしい(本当に素晴らしい)ですが、長くて複雑なコードを生成する必要があるときはいつでも、1つ以上の愚かな間違いを犯すと言えます。くだらないミスを犯します。これらのミスはたいてい簡単に修正できますし、実際、Pythonインタプリタが生成したエラーを推論のヒントとして使うだけで、それ以上の説明なしに修正できることがよくあります(あるいは、より現実的な方法として、コードエディタがコードに見つけた「問題」一式を貼り付けるためにリンターと呼ばれるものを使うこともできます)。コードが非常に長くなったり複雑になったりすると、修正に時間がかかったり、手作業でのデバッグが必要になることもあります。
私がOpenAIのO1モデルに初めて挑戦したときは、まるで天啓のようでした。これは、COTプロセスが、モデルによって与えられた答えの最終的なレスポンス・トークンの前に、自動的に問題を見つけて修正するからです。
実際、OpenAIのChatGPT Plusサブスクリプションサービス(月額20ドル)で使用されているO1モデルは、新しいChatGPT Proサブスクリプションサービス(価格は以前の10倍の月額200ドルで、開発者コミュニティで騒動を起こしています)で使用されているO1モデルと本質的に同じです。主な違いは、O1-Proは応答するまでに長く考え、より多くのCOTロジック・トークンを生成し、応答ごとにかなりの量の推論計算リソースを消費することです。
クロード3.5のソネットやGPT4oでは、400kb以上のコンテキストが与えられたとしても、非常に長く複雑なキューは、通常、応答を開始するまでに10秒未満、多くの場合5秒未満しかかかりません。一方、O1-Proに与えられた同じプロンプトは、応答を得るのに5分以上かかることがあります(ただし、OpenAIは、あなたが待っている間、プロセスで生成された「推論ステップ」のいくつかを表示します。重要なことは、OpenAIは、企業秘密に関連する理由から、生成された正確な推論トークンをあなたに隠すことを決定し、代わりに、非常に単純化された要約を表示することです)。
ご想像の通り、多くの場合、正確さは非常に重要です。簡単に間違っていることが証明されるような答えを出したり、幻覚のような事実や他のもっともらしい推論の答えを出したりするくらいなら、あきらめて、単にできないことをユーザーに伝える方がましです。他のもっともらしい推論に基づいた答えを与えるよりも、あきらめて単にできないと伝えるほうがましなのです。お金や取引に関わること、医療、法律など、例を挙げればきりがない。
基本的に、推論のコストが、AIシステムと対話する人間の知識労働者の時間給の全額に対して些細なものである限り、COT計算を呼び出すことは、その場合、完全に無意味になります(主な欠点は、応答待ち時間が非常に長くなることです。(主な欠点は、応答待ち時間が非常に長くなることです。そのため、場合によっては、待ち時間が短く、正確さや正しさが劣る応答を得ることによって、反復をスピードアップすることを好むかもしれません)。
数週間前、AI分野でOpenAIのまだリリースされていないO3モデルに関するエキサイティングなニュースがありました。高度に熟練したプロの数学者でも解くことが難しい、極めて難しい「基本的な」数学の問題)なぜなら、OpenAIは、(通常のAI手法を使う場合と比較して)これらの問題の1つを解くために、かなりの計算資源(場合によっては、3,000ドル以上の計算能力)を投入しているからだ。タスクのために(対照的に、通常のTransformerモデルを使用すると、従来の推論では、思考の連鎖なしに1つのタスクに数ドル以上のコストがかかることはまずありません)。
この進歩が、事前に訓練されたスケーリングの元の法則とはまったく異なる、まったく新しいスケーリングの法則を生み出すことは、AIの天才でなくても気づくことでしょう。可能な限り多くの計算資源と、可能な限り多くの兆単位の高品質な学習データを巧みに活用することで、最高のモデルを訓練したいことに変わりはないが、それはこの新しい世界の物語の始まりに過ぎない。今や、驚異的な量の計算資源を使用して、これらのモデルから非常に高いレベルの信頼性だけを推定したり、「天才レベル」の推論を必要とする極めてトリッキーな問題を解決しようとしたりすることは容易である。GLMを迷わせるすべての潜在的な落とし穴を避けるために。
私のように、AIの未来はほとんど想像を絶するほど有望だと信じているとしても、"なぜ企業はこのテクノロジーから利益の大半を得たいのだろうか? "という疑問は残ります。 歴史上、多くの重要な新技術が世界を変えてきたのは事実だが、主な勝者は初期段階で最も有望と思われた企業ではなかった。ライト兄弟の飛行機会社は技術を発明し完成させたが、現在ではいくつかの会社に発展しているとはいえ、その会社の時価総額は100億ドルに満たない。フォードは現在400億ドルという大きな時価総額を持っているが、これはエヌビディアの現在の時価総額のわずか1.1%に過ぎない。
これを理解するには、NVIDIAがどのようにしてこれほど大きな市場シェアを獲得できたのかを本当に理解することが重要です。結局のところ、GPUを製造しているのはAMDだけではないのです。AMDは、トランジスタ数やプロセスノードなどの点で、統計的にNVIDIAに匹敵する、きちんとした性能のGPUを製造しています。確かに、AMDのGPUはNvidiaのGPUほど高速でも先進的でもないが、NvidiaのGPUは10倍高速でもないし、似たようなものでもない。実際、FLOPあたりの未加工コストでは、AMD GPUはNvidia GPUの半分です。
DRAM市場のような他の半導体市場を見ると、DRAM市場の粗利益率はサイクルの底ではマイナスで、サイクルの頂点では約60%、平均では約20%です。程度である。これと比較すると、Nvidiaの全体的な粗利益率は、最近の四半期では約75%であり、利益率が低く、よりコモディティ化したコンシューマ向け3Dグラフィックス・カテゴリーに引きずられています。
では、なぜこのようなことが可能なのでしょうか?
では、なぜこのようなことが可能なのでしょうか?また、PyTorchのような高度に最適化されたオープンソースのコードもあります。
それだけでなく、プログラマーがGPU用に最適化された低レベルのコードを書くために使用するプログラミングフレームワークであるCUDAは、Nvidiaが完全に所有しており、事実上の標準となっています。GPUアクセラレーションでの作業方法を知っている非常に優秀なプログラマーを雇いたいと思い、彼らに年俸65万ドル、つまりその特定のスキルセットを持つ人の一般的な給与を支払う気があるのなら、彼らはおそらくCUDAを使って「考え」、作業することになるだろう。
ソフトウェアの優位性に加えて、Nvidiaのもう1つの大きな優位性は、インターコネクトとして知られているものです。基本的なモデルだ。要するに、効率的なトレーニングの鍵は、トレーニングの次のステップに必要なデータの次のバッチが受信されるまでアイドリングして待機するのではなく、すべてのGPUを常にフルに活用し続けることです。
帯域幅の要件は非常に高く、従来のデータセンター・アプリケーションに必要な一般的な帯域幅よりもはるかに高くなっています。このインターコネクトでは、従来のネットワーク機器やファイバーを使用することはできません。なぜなら、すべてのGPUを常にビジー状態に保つために必要な毎秒テラバイトの帯域幅を提供するには、遅延が大きすぎるからです。
NVIDIAは、2019年にイスラエルのMellanox社を69億ドルで買収するという非常に賢明な決定を下しました。インターコネクトの速度は、少数のGPUしか使用しない推論プロセス(COT推論を含む)よりも、トレーニングプロセス(何千ものGPUの出力を同時に利用する必要がある)に密接に関係していることに注意してください - 必要なのは、トレーニング済みモデルの定量化された(圧縮された)モデル重みを保存するのに十分なVRAMだけです。
これらがNVIDIAの「堀」の主な構成要素であり、これほど長い間、高い利益率を維持できている理由であるとも言えます(「フライホイール効果」もあり、NVIDIAはその莫大な利益を大規模な研究開発に積極的に投資しており、その結果、競合他社よりもはるかに速い速度で技術を向上させることができます。(それゆえ、生のパフォーマンスで一貫してリーダーシップを発揮しているのだ)。
しかし、先に指摘したように、他のすべてのものが同じであったとしても、顧客が本当に気にするのは、多くの場合、ドルあたりのパフォーマンス(デバイスの初期CAPEXコストとエネルギー使用量の両方、つまりワットあたりのパフォーマンス)です。
しかし、他の要素は同じではありません。AMDのドライバは最悪で、人気のあるAIソフトウェアライブラリはAMD GPUではうまく動作しません。CUDAのスペシャリストの方が市場ニーズが高いのに、なぜわざわざ?)また、AMDの貧弱なインターコネクト技術により、何千ものGPUを効果的に接続することができません。これらはすべて、AMDがハイエンドのデータセンター分野で本質的に競争力がなく、短期的には良い未来があるとは思えないことを意味しています。
さて、Nvidiaの未来は明るいようですね?株価が高く評価されている理由はお分かりいただけたと思います!しかし、他に懸念材料はないのだろうか?まあ、大きな注目に値する懸念はあまりないと思う。過去数年間、水面下に潜んでいた問題はいくつかあるが、成長率を考えれば、その影響は最小限にとどまっている。しかし、上向く可能性があるため、準備を進めている。他の問題は最近のものであり(たとえば、過去2週間)、最近のGPU需要の成長の軌道を大きく変える可能性があります。
マクロレベルでは、次のように考えることができます。競合他社は非常に限られており、それらの競合他社は、Nvidiaのような市場リーダーに圧力をかけるのに十分な資本を持っていないため、本当の脅威となるほどの収益性と急成長を遂げていない。ゲーム市場は大きく、成長していますが、驚異的な利益をもたらしているわけでも、特に印象的な年間成長率を達成しているわけでもありません。
2016年から2017年にかけて、一部の大手テック企業は機械学習とAIへの雇用と支出を増やし始めましたが、全体として見れば、それは彼らにとって本当に重要なプロジェクトではありませんでした。月探査計画」の研究開発費のようなものだった。しかし、AIの競争は2022年のChatGPTのリリースから本格的に始まり、あと2年余りではあるが、開発のペースという点ではずいぶん昔のことのように思える。
突然、大企業が驚くほどのスピードで数十億ドルを投資する準備が整った。ニューリップやICMLのような大きな研究会議に参加する研究者の数は急増している。以前は金融デリバティブに携わっていたような優秀な学生がトランスフォーマーに転向し、主要なAI研究所では、非執行技術職(つまりチームを管理しない独立した貢献者)に対する100万ドル以上の報酬パッケージが当たり前になった。
大型客船の方向性を変えるには時間がかかります。たとえ非常に速く動き、数十億ドルを費やしたとしても、真新しいデータセンターを建設し、すべての機器を(リードタイムを延長して)注文し、すべてのセットアップと試運転を行うには1年以上かかります。最も賢いプログラマーでさえ、物事を本格的に進め、既存のコードベースやインフラに慣れるには長い時間がかかる。
しかし、想像できるように、このスペースに投資される資金、人手、労力は絶対に天文学的な額であり、Nvidiaは、AIが私たちの生活を支配する未来ではなく、現在の利益への最大の貢献者であるため、すべてのプレイヤーの中で最大のターゲットです。
したがって、至上命題となる結論は、「市場は必ず出口を見つける」ということであり、Nvidiaの堀を強固にする障害を回避するために、まったく新しいコンセプトを利用した、代替となる根本的に革新的な新しいハードウェアの製造方法を見つけるということです。
たとえば、セレブラスのいわゆる「ウェハーレベル」のAIトレーニングチップは、300mmのシリコンウェハー全体を使用しています。たとえば、セレブラスのいわゆる「ウェハーレベル」AIトレーニングチップは、300mmのシリコンウェハー全体を使用し、1つのチップ上に桁違いの数のトランジスタとコアを含む、非常に巨大なチップを実現します(このアプローチが経済的に実用的であることを妨げてきた歩留まりの問題に、セレブラスがどのように対処しているかについては、最近のブログ記事をご覧ください)。
例を挙げると、セレブラスの最新WSE-3チップと、Nvidiaのフラッグシップ・データセンターGPUであるH100を比較した場合、セレブラスのチップの総チップ面積は46,225平方ミリメートルであるのに対し、H100は814平方ミリメートルです(H100のようにチップ上に132個の「ストリーミング・マルチプロセッサ」コアを搭載する代わりに、セレブラス・チップには約90万個のコアが搭載されている。具体的には、AIにおいて、セレブラス・チップはH100チップ1個の約32倍のFLOPS演算能力を持つ。H100チップは4万ドル近くで売られているので、WSE-3チップも安くはないことは想像できるだろう。
では、何がポイントなのでしょうか。同様のアプローチでNvidiaと真っ向勝負を挑んだり、Mellanoxのインターコネクト技術に対抗したりするのではなく、セレブラはインターコネクトの問題を回避するために、まったく新しいアプローチを取っています。すべてが同じ超大型チップ上で動作すれば、プロセッサー間の帯域幅の問題はそれほど重要ではなくなります。
そしてセレブラス・チップは、AI推論タスクにおいて非常に優れた性能を発揮します。
また、CerebrasチップはAI推論タスクにおいて非常に優れたパフォーマンスを発揮します。その応答速度は、1秒間におよそ1,500トークンで、基本的に瞬時です。比較の観点からは、1秒間に30以上のトークンは、ChatGPTやClaudeと比較して、ユーザーにとって比較的速く、1秒間に10トークンでさえ、基本的に応答が生成されるのを読むのに十分な速さです。
Cerebras社だけでなく、Groq社(イーロン・マスクのX AIで訓練されたGrokモデルシリーズと混同しないように)などがあります。Groq社は、同じ基本的な問題を解決するために別の革新的なアプローチを取っています。エヌビディアのCUDAソフトウェアスタックと直接競合しようとするのではなく、ディープラーニングモデルが必要とする正確な数学演算に特化した、いわゆる「テンソル処理ユニット」(TPU)を開発したのだ。同社のチップは「決定論的コンピューティング」のコンセプトに基づいて設計されており、従来のGPUとは異なり、毎回完全に予測可能な方法で演算を実行する。
これは技術的には些細なことに聞こえるかもしれませんが、実際にはチップ設計とソフトウェア開発の両方に大きな影響を与えます。タイミングが完全に定義されているため、Groqは従来のGPUアーキテクチャでは不可能な方法でチップを最適化できます。その結果、過去6カ月ほどの間に、Llamaモデル・ファミリーやその他のオープンソース・モデルで、従来のGPUセットアップでは達成できなかった毎秒500トークンを超える推論速度を実証している。Cerebrasと同様、これは現在利用可能で、ここから無料で試すことができます。
Llama3モデルを「投機的デコード」で使用するGroqは、毎秒1,320トークンを生成することが可能で、これはCerebrasと同様、従来のGPUで達成できるパフォーマンスをはるかに超えています。さて、ユーザーはChatGPTのスピード(毎秒1,000トークン以下)に満足しているようなのに、毎秒1,000トークンを超えることに何の意味があるのかと疑問に思うかもしれない。事実、それは重要です。人間のナレッジワーカーのように瞬時にフィードバックが得られ、集中力を切らすことがなければ、イテレーションはより速くなります。APIを通じてプログラムでモデルを使用する場合、多段階推論(前の段階の出力が、後続の段階でのヒントや推論の入力として使用される)、またはコンテンツ監査、詐欺検出、動的価格設定などの低遅延応答を必要とするアプリの全く新しいクラスを可能にすることができます。
しかし、より根本的には、リクエストに対するレスポンスが速ければ速いほど、ループも速くなり、ハードウェアも忙しくなります。Groqのハードウェアは非常に高価であり、サーバー1台で200万ドルから300万ドルもかかるが、ハードウェアを常にビジー状態に保てるほど需要が高ければ、リクエスト1件あたりのコストは大幅に下がる。
NvidiaのCUDAのように、Groqの強さの大部分は、その独自のソフトウェアスタックから来ている。Groqは、Meta、DeepSeek、Mistralのような他社が開発し、無料でリリースしているオープンソースのモデルを、特定のハードウェア上でより高速に動作するように特別な方法で分解することができます。
セレブラのように、彼らはプロセスの特定の側面を最適化するために、まったく異なる方法で動作するよう、さまざまな技術的決定を下している。たとえばGroqの場合、学習よりも推論レベルの計算に完全に集中しています。すべての特別なハードウェアとソフトウェアは、すでに学習されたモデルを推論するときにのみ、スピードと効率で大きな利点を得ることができます。
しかし、次に期待される大きなスケーリング法則が推論レベルのコンピューティングであり、COTモデルの最大の欠点が、応答するために中間ロジックのトークンをすべて生成しなければならず、待ち時間が長すぎることであるとすれば、NVIDIAよりもはるかに高速で効率的な推論ベースのコンピューティングのみを行う企業であっても、今後、深刻な競争上の脅威をもたらすことになるでしょう。は、今後数年間で、深刻な競争上の脅威となるだろう。少なくとも、CerebrasとGroqは、今後2-3年のNVIDIAの収益成長に対する現在の株価評価の高すぎる期待を食いつぶしてしまう可能性があります。
これらの特に革新的だが比較的無名の新興企業の競合に加え、NVIDIAの最大の顧客の中には、AIのトレーニングと推論ワークロードのために特別にカスタムチップを構築してきた企業もあり、それ自体が深刻な競争相手となっている。興味深いことに、グーグルは一時的にTPUを外部の顧客に販売していたが、過去数年間はすべてのTPUを社内で使用しており、すでに第6世代のTPUハードウェアを展開している。
アマゾンはまた、Trainium2とInferentia2と呼ばれる独自のカスタムチップを開発している。 アマゾンは、これらの自社製チップを使用する他のデータセンターに数十億ドルを投資すると同時に、数十億ドルのNvidia GPUを搭載したデータセンターを構築している。Anthropic用にオンライン化されるクラスターには、40万以上のチップが搭載されている。
アマゾンは、社内のAIモデル開発を完全に台無しにし、最終的に競争力のないモデルに社内の多くの計算リソースを浪費していると批判されていますが、特注チップは別の問題です。繰り返しになるが、アマゾンのチップは必ずしもエヌビディアのチップより優れていたり速かったりする必要はない。必要なのは、十分に優れたチップでありながら、NvidiaがH100ビジネスで得ているような~90%以上の粗利ではなく、損益分岐点の粗利で作られたチップだけなのです。
OpenAIもカスタムチップを作る計画を発表しており、彼らは(マイクロソフトとともに)Nvidiaのデータセンター・ハードウェアの最大のユーザーであるようだ。
OpenAIもカスタムチップを作る計画を発表しており、(Microsoftとともに)Nvidiaのデータセンター・ハードウェアの最大のユーザーであるようだ!
そして、世界で最も価値のあるテクノロジー企業であるアップルは、非常に革新的で破壊的なカスタムチップ事業で何年も期待を裏切ってきました。現在では、ワットあたりの性能でインテルとAMDのCPUを徹底的に凌駕しており、モバイル(携帯電話/タブレット/ノートPC)アプリケーションで性能が最も高いワットあたりの性能を発揮しています。ワットあたりの性能が最も重要な要素であるモバイル(携帯電話/タブレット/ノートパソコン)アプリケーションでは、ワットあたりの性能でインテルとAMDを完全に凌駕している。彼らは何年もの間、自社で設計したGPUと「ニューラル・プロセッサー」を製造してきたが、iPhoneのカメラで使用されている高度なソフトウェアベースの画像処理など、カスタム・アプリケーション以外では、これらのチップの有用性を実際に証明するには至っていない。
アップルの焦点は、モバイルファースト、消費者志向、そして「エッジコンピューティング」に焦点を当てた、これらの他のプレイヤーとは異なるようですが、もしアップルがiPhoneユーザーにAIサービスを提供するために、OpenAIとの新たな契約に十分な資金を投資することになるのであれば。アップルには、推論やトレーニングのための独自のカスタムチップを作る方法を研究しているチームがあると想像しなければならない(ただし、彼らの秘密主義を考えると、おそらくこのことを直接知ることはないだろう!)。
今となっては、Nvidiaの超拡張顧客ベースが強力なべき乗分布を示し、一握りのトップクラスの顧客が高収益の大部分を占めていることは周知の事実です。これらのVIP顧客がそれぞれ、AIのトレーニングと推論に特化した独自のカスタムチップを構築している場合、私たちはこのビジネスの将来をどのように見るべきでしょうか?
これらの質問について考える一方で、1つの非常に重要な事実を心に留めておく必要があります。NVIDIAは非常に知的財産に基づく企業です。これらの素晴らしいデバイスを製造するための本当に特別な秘伝のソースは、おそらくTSMCとASMLからもたらされる。ASMLは、これらの最先端プロセスノード用のチップを製造するために使用される特殊なEUVリソグラフィ装置を製造している。TSMCは、十分な先行投資を行い、一定額を保証してくれる顧客には最先端のチップを販売するため、これは極めて重要だ。これらのチップが、ビットコインの採掘に特化した集積回路、グラフィックス・プロセッサ、熱可塑性ポリウレタン、携帯電話のシステムオンチップなどであろうと、彼らは気にしない。
Nvidiaのシニア・チップ・デザイナーの年収を考えると、これらのハイテク大手は、優秀な何人かを誘い出すのに十分な現金と株を用意することができます。いったんチームとリソースが揃えば、2~3年で革新的なチップを設計することができ(H100の50%も高度ではないかもしれませんが、Nvidiaのグロスマージンを考えれば、成長の余地は大いにあります)、TSMCのおかげで、Nvidiaとまったく同じプロセスノード技術を使って、それらのチップを実際のシリコンにすることができます。
これらの迫り来るハードウェアの脅威が十分に悪いものでなかったかのように、過去数年間、ソフトウェアの分野ではいくつかの進歩がありました。NvidiaのCUDAソフトウェアの優位性に深刻な脅威をもたらす可能性がある。まず、AMD GPU用の貧弱なLinuxドライバがある。私たちが、AMDがこれらのドライバが何年もの間、非常に悪いものであることを不注意にも許し、その一方で、多くの資金が流出するのを黙って見ていたことを議論したのを覚えていますか?
興味深いことに、10代の頃に初代iPhoneをジェイルブレイクしたことで知られる悪名高いハッカー、ジョージ・ホッツ氏は現在、自動運転スタートアップのComma.aiと、オープンソースのtinyを開発したAIコンピューター会社Tiny CorpのCEOを務めています。Corpはオープンソースのtinygrad AIソフトウェアフレームワークも開発した)最近、彼はAMDのひどいドライバに対処するのに疲れ、彼のTinyBox AIコンピュータでより低価格のAMD GPU(さまざまなモデルがあり、Nvidia GPUを使用するものもあればAMD GPUを使用するものもある)を使用できるようにすることに絶望していると発表した。
実際、彼はAMDの助けを借りずに、AMD GPU用の独自のカスタムドライバとソフトウェアスタックを作成した。2025年1月15日、彼は同社のXアカウントを通じて、「AMDの完全な独自スタックであるRDNA3アセンブラまであと一歩だ」とツイートした。我々は独自のドライバ、ランタイム、ライブラリ、エミュレータを持っています。(その全部で〜12,000行!)"彼の実績とスキルセットを考えると、今後数カ月以内にすべてを完成させることができそうです。現在、同社はNvidia GPUにお金を払わなければならないのに対し、AMD GPUを幅広いアプリケーションに使用するための多くのエキサイティングな可能性が開けるでしょう。
さて、これはAMDのドライバーの1つに過ぎず、まだ終わっていません。他に何があるのでしょうか?まあ、ソフトウェア側には、もっと大きな影響を与える他の分野がいくつもある。まず、多くの大企業とオープンソースソフトウェアコミュニティは現在、より一般的なAIソフトウェアフレームワークを開発するために協力しており、CUDAは多くの「コンパイルターゲット」の1つに過ぎません。
つまり、より高いレベルの抽象化を使用してソフトウェアを書くと、システム自体が自動的にこれらの高レベルの構成を、CUDA上で素晴らしい動作をする超最適化された低レベルのコードに変換することができます。しかし、これはより高いレベルの抽象化レイヤーで行われるため、主要なハイテク企業が開発している膨大なカスタムチップなど、さまざまなベンダーの他の多くのGPUやTPUでうまく動作する低レベルコードに簡単にコンパイルできます。
これらのフレームワークの最もよく知られた例は、MLX(主にAppleがスポンサー)、Triton(主にOpenAIがスポンサー)、およびJAX(Googleが開発)です。MLXが特に興味深いのは、アップルのシリコン上で効率的に動作するPyTorchのようなAPIを提供している点で、こうした抽象化レイヤーによって、AIワークロードがまったく異なるアーキテクチャ上で実行できるようになることを示している。一方、Tritonは、開発者が各プラットフォームの根本的な詳細を理解することなく、さまざまなハードウェアターゲット上で実行できるようにコンパイルできる高性能コードを書くことを可能にするため、人気が高まっています。
これらのフレームワークにより、開発者は強力な抽象化を使用してコードを記述し、それを多数のプラットフォーム用に自動的にコンパイルすることができます。このアプローチは、実際にコードを実行することになると、さらに柔軟性を提供します。
1980年代、最も人気がありベストセラーとなったソフトウェアはすべて、手作業で修正されたアセンブリ言語で書かれていました。たとえば、PKZIP圧縮ユーティリティは、標準のCプログラミング言語で書かれ、当時最高の最適化コンパイラを使ってコンパイルされたコードのバージョンが、手作業で調整されたアセンブリコードの半分の速度で実行できるほど、速度を最大化するために手作業で作られていました。WordStarやVisiCalcのような他の一般的なソフトウェアパッケージも同様である。
コンパイラーは時代とともに強力になり、CPUアーキテクチャが変わるたびに(たとえば、Intelがリリースした486からPentiumへ、など)、手書きのアセンブラプログラムは通常破棄して書き直さなければなりません。CUDAの専門家は、「普通の」ソフトウェア開発者よりも就職市場で有利であるように)。最終的に、物事は収束し、手作業によるコンパイルの速度の利点は、CやC++のような高水準言語でコードを書くことの柔軟性よりもはるかに上回りました。
今日、アセンブリ言語で新しいコードを書く人はほとんどいません。コンピューターは最適化が得意であり、柔軟性と開発スピードはますます重要な要素になっています。は利益の90%以上を生み出しています。
さらに、劇的に変化する可能性があるもう1つの領域は、CUDA自体が高レベルの抽象化、つまりVerilog(チップのレイアウトを記述するための業界標準として使用されている)に似た「仕様言語」で終わる可能性があるということです。熟練した開発者はこの言語を使って、大規模な並列処理を含む高レベルのアルゴリズムを記述することができる(彼らはすでにこの言語に慣れ親しんでおり、構造化されており、汎用的な言語であるためなど)が、通常の慣習とは異なり、このコードはNvidia GPUで使用するためにコンパイルされるのではなく、ソースコードとしてLLMに供給される。Trainium2や新しいGoogle TPUv6など、理解できる低レベルのコードに変換することができる。OpenAIの最新のO3モデルを使えば、おそらくすでに手の届くところにあり、1~2年以内には確実に一般的に実装されるでしょう。
おそらく最も衝撃的な展開は、先々週にやってきました。DeepSeekという中国のスタートアップが、基本的にOpenAIやAnthropicの最高のモデルに性能レベルで匹敵する2つの新しいモデルをリリースしたのです(Meta Llama3モデルや、Mistralのようなオープンソースのモデルを凌駕しています)。Mistralのようなオープンソースのモデルを凌ぐ)。これらのモデルはDeepSeek-V3(基本的にGPT-4oとClaude 3.5 Sonnetへの対応)とDeepSeek-R1(基本的にOpenAIのO1モデルへの対応)と呼ばれています。
なぜこれほど衝撃的なのだろうか?まず、ディープシークは従業員200人以下の小さな会社です。当初はTwoSigmaやRenTecのようなクオンツ取引のヘッジファンドとしてスタートしたと言われているが、中国がAI分野への規制を強化した後、数学と工学の専門知識を活かしてAI研究に進出した。
これらは非常に専門的なレポートであり、線形代数を全く知らない人は読むのに苦労するかもしれない。しかし、試してみてほしいのは、AppStoreでDeepSeekアプリを無料でダウンロードし、Googleアカウントでサインインしてインストールし、試してみることだ(Androidにもインストールできる)。DeepThink」オプションを選択して、思考の連鎖(R1モデル)を有効にし、技術レポートの一部を簡単な言葉で説明するようにしてください。
これにより、いくつかの重要なことが同時にわかります:
まず第一に、このモデルは絶対に正当です。AIのベンチマークには多くの偽の要素があり、これらのテストはしばしば、ベンチマークではモデルが良い結果を出しても、実世界のテストでは悪い結果を出すように細工されています。Googleは間違いなくこの点で最大の加害者であり、彼らのLLMがいかに素晴らしいかを常に自慢しているが、実際のところ、これらのモデルは実世界のテストではひどい結果を出し、最も単純なタスクでさえ確実に完了することができない。とまったく同じレベルのモデルです。
第二に、DeepSeekはモデルの質だけでなく、より重要なこととして、モデルの学習と推論の効率においても大きな進歩を遂げました。ハードウェアに非常に接近し、いくつかのユニークで非常に賢い最適化を組み合わせることで、DeepSeekはGPUを使用してこれらの素晴らしいモデルを大幅に効率的な方法で訓練することができます。いくつかの測定では、DeepSeekは他の最先端モデルよりも約45倍効率的です。
DeepSeekは、DeepSeek-V3のトレーニングにかかった全費用は500万ドル強だったと主張しています。これは、OpenAIやAnthropicなどが2024年に個々のモデルのトレーニング費用で1億ドルを超えるレベルに達したという基準からすれば、たいしたことではありません。
どうしてこんなことが可能なのか?この小さな中国企業が、100倍以上のリソース、従業員数、給与、資本、GPUなどを持つ、私たちをリードするAI研究所の最も賢い人たち全員を完全に凌駕することができるのでしょうか?中国はバイデンによるGPU輸出制限で機能不全に陥るはずではなかったのか?まあ、詳細はかなり専門的だが、少なくとも一般的な用語で説明することはできる。おそらく、ディープシークの比較的弱いGPU処理能力は、「必要は発明の母」であるため、その創造性と創意工夫を高める重要な要因になることが証明されるだろう。
主要な革新は、訓練プロセスを通じて8ビット浮動小数点数(FP8)を使用できる、高度な混合精度訓練フレームワークである。ほとんどの欧米のAI研究所では、訓練に「完全精度」の32ビット数を使用している(これは基本的に、人工ニューロンの出力を記述する際に可能な漸近線の数を指定するものである。FP8の8ビットは、通常の整数に相当する256の異なるサイズに限定されず、数学的な巧妙なトリックを使って非常に小さい数から非常に大きい数まで、32ビットよりも自然な精度で保存することができる)。主なトレードオフは、FP32が広い範囲にわたって驚異的な精度で数値を格納できるのに対して、FP8は多くのAIワークロードに十分な精度を維持しながら、メモリを節約してパフォーマンスを向上させるために精度をある程度犠牲にしているということです。
ディープシークは、数値を活性化用の小さなチャンクと重み付け用のチャンクに分解し、ネットワーク内の重要なポイントで戦略的に高精度計算を使用する巧妙なシステムを開発することで、この問題を解決しました。高精度で訓練した後に圧縮する(その過程で品質が低下する)他のラボとは異なり、ディープシークのFP8ネイティブのアプローチは、パフォーマンスを損なうことなく大量のメモリを節約できることを意味する。何千ものGPUでトレーニングする場合、GPUあたりのメモリ要件は劇的に削減され、全体として必要なGPUの数ははるかに少なくなります。
もう1つの大きなブレークスルーは、マルチマーカー予測システムです。ほとんどのTransformerベースのLLMモデルは、次のマーカーを予測することによって推論します。
DeepSeekは、1つのトークンの予測品質を維持しながら、複数のトークンを予測する方法を考え出した。彼らの方法は、これらの追加マーカー予測で約85~90%の精度を達成し、品質をそれほど犠牲にすることなく、推論の速度を実質的に2倍にします。巧妙なことに、彼らは予測の完全な因果連鎖を維持しているため、モデルは単なる推測を超え、構造化された、文脈に関連した予測を行う。
彼らの最も革新的な開発のひとつは、Multiple Latent Attention(MLA)と呼ばれるものです。これは、彼らがキーバリューインデキシングと呼ぶものを扱う上でのブレークスルーであり、基本的に個々のトークンがTransformerアーキテクチャのアテンションメカニズムでどのように表現されるかを表しています。これは技術的な観点からは少し複雑すぎるが、これらのKVインデックスは学習と推論におけるVRAMの主な用途の1つであり、これらのモデルを学習するために何千ものGPUを同時に使用する必要がある理由の1つであると言ってもよい。メモリを食い尽くすことになります。
彼らのMLAシステムは、重要な情報を捕捉しながら、より少ないメモリ消費でこれらのインデックスの圧縮バージョンを保存する方法を発見しました。最も優れている点は、この圧縮がモデルの学習方法に直接組み込まれていることです。つまり、別個のステップではなく、エンドツーエンドの学習パイプラインに直接組み込まれているのです。つまり、メカニズム全体が「微分可能」であり、標準的なオプティマイザを使って直接トレーニングできるのだ。これは、これらのモデルが、いわゆる「アンビエント次元」よりもはるかに低い、基礎となるデータの表現を見つけることになるからだ。したがって、KVインデックスを完全に保存することは、他の誰もが本質的に行っていることであるにもかかわらず、無駄なことなのです。
実際に必要とされる以上の膨大な量のデータを保存することで多くのスペースを浪費し、トレーニングメモリフットプリントと効率の大幅な向上につながるだけでなく(繰り返しますが、世界トップクラスのモデルをトレーニングするために必要なGPUの数を大幅に減らすことができます)、実際には「調整装置」として機能することでモデルの質を向上させます。学習データのノイズに対応するために無駄な容量を使うのではなく、本当に重要なことに集中するようにモデルを強制します。そのため、メモリを大幅に節約できるだけでなく、モデルの性能も向上する可能性がある。少なくとも、AIのトレーニングでしばしば直面するトレードオフである、大量のメモリを節約することによる深刻なパフォーマンスの低下はありません。
また、DualPipeアルゴリズムとカスタム通信カーネルにより、GPU通信効率も大幅に向上しました。このシステムは、計算と通信をインテリジェントにオーバーラップさせ、タスク間のGPUリソースのバランスを注意深く調整します。必要なのは、ストリーム・マルチプロセッサ(SM)のうち約20GPUを通信に、残りを計算に使うだけだ。その結果、GPUの利用率は一般的なトレーニングセットアップよりもはるかに高くなりました。
彼らが行ったもう1つの本当に賢いことは、Mixed Expertise(MOE)Transformerアーキテクチャと呼ばれるものを使用することでしたが、ロードバランシングに関する重要な革新がありました。ご存知のように、AIモデルのサイズや容量は、モデルが含むパラメータの数で測られることが多い。パラメーターとは、モデルの特定の特性を保存するために使用される数値のことです。たとえば、特定の人工ニューロンの他のニューロンに対する「重み」または重要度、あるいは(「注意メカニズム」における)コンテキストに基づく特定のトークンの重要度などです。
メタの最新のLlama3モデルにはいくつかのサイズがあります。例えば、10億パラメータバージョン(最小)、70Bパラメータモデル(最も一般的に使用される)、さらには405Bパラメータを持つ大規模モデルなどです。ほとんどのユーザーにとって、この最大のモデルの有用性は限定的である。少なくともオリジナルの全精密バージョンを導入する場合、許容可能な速度で推論を実行するには、コンピュータに数万ドル相当のGPUを搭載する必要があるからだ。その結果、これらのオープンソースモデルの実世界での使用と興奮のほとんどは、8Bパラメータまたは高度に定量化された70Bパラメータレベルです。なぜなら、それがコンシューマーグレードのNvidia 4090 GPUが対応できるものであり、最近では1000ドル以下で手に入るからです。
では、このすべてのポイントは何でしょうか?ある意味、パラメーターの数と精度によって、モデル内部にどれだけの生の情報やデータが保存されているかがわかります。パラメーターの数が少ないモデルでも、複雑な論理問題を解いたり、平面幾何学の定理を証明したり、SATの数学の問題を解いたりと、優れた認知能力を発揮できることが示されています。
しかし、そのような小さなモデルが、スタンダールの小説のあらゆる筋書きのあらゆる側面を教えてくれるとは限りません。この極端な知識レベルの「代償」は、モデルが非常に扱いにくくなり、学習や推論が困難になることです。モデルを推論するためには、常に405Bの各パラメータ(または任意の数のパラメータ)をGPUのVRAMに同時に保存する必要があるからです。
MOEモデルアプローチの利点は、大きなモデルを、それぞれが異なる、重複しない(または少なくとも完全に重複しない)知識を持つ一連の小さなモデルに分解できることです。これは、ロードバランシングが通常伴うパフォーマンスの低下なしに、エキスパートの効率的な利用を維持するものである。そして、推論要求の性質に応じて、質問に対する回答やタスクの解決に最も適した、集合の小さいモデル内の「エキスパート」モデルにインテリジェントに推論をルーティングすることができます。
これは、それぞれの専門分野を持つ専門家の委員会だと考えることができます。ある人は法律の専門家かもしれませんし、別の人はコンピュータサイエンスの専門家かもしれませんし、さらに別の人はビジネス戦略の専門家かもしれません。つまり、誰かが線形代数について質問しても、法律の専門家には渡さないということだ。もちろん、これは非常に大雑把な例えであり、実際にはそのようにはいかない。
このアプローチの本当の利点は、モデルが非常に扱いにくくなることなく、大量の知識を含むことができるということです。なぜなら、すべての専門家のパラメータの総数が多くても、パラメータのごく一部しか、いつでも「アクティブ」にならないからです。つまり、推論を実行するためにVRAMに格納する必要があるのは、重みのごく一部だけです。例えば、DeepSeek-V3の場合、671Bのパラメータを含む非常に巨大なMOEモデルを持っており、これはLlama3の最大モデルよりもはるかに大きい。しかし、これらのパラメータのうち、常時アクティブになっているのは37Bだけである。
ChatGPTとClaudeの両方がMoEアーキテクチャを使用しているという噂があり、情報筋によると、GPT-4は8つのモデルにまたがる合計1兆8000億のパラメーターを持っており、それぞれが2200億のパラメーターを含んでいることが明らかになっています。
上記に加えて、テクニカル・ペーパーでは他にもいくつかの重要な最適化について言及しています。
上記に加えて、技術論文では他にもいくつかの重要な最適化について言及しています。これには、テンソル並列を避け、バックプロパゲーション中に特定の演算を保存する代わりに再計算し、メインモデルと補助予測モジュール間でパラメータを共有する、非常にメモリ効率の高いトレーニングフレームワークが含まれます。これらすべての革新的な技術を積み重ねることで、ネット上で出回っている~45倍の効率改善という数字が導き出される。
DeepSeekのAPIのコストは、これを強く証明しています。DeepSeekのモデル性能はほぼクラス最高であるにもかかわらず、そのAPIを介した推論リクエストのコストは、OpenAIやAnthropicの同等のモデルよりも95パーセント安価です。ある意味、NvidiaのGPUと競合他社の新しいカスタムチップを比較するようなものだ。性能はそれほど高くなくても、費用対効果ははるかに高い。これまでのところ、信じられないほどの需要の急増にもかかわらず、DeepSeekのインフラストラクチャの性能の高さに人々は驚いています)。
しかし、Nvidiaの状況とは異なり、コスト差はデータセンター提供で得られる90%以上の独占粗利によるものです。DeepSeekのAPIは、計算効率が50倍近く高い(推論側ではそれ以上、学習側では45倍程度)。実際、OpenAIとAnthropicが彼らのAPIサービスから多大な利益を得ているかどうかは不明だ。彼らは収益の増加と、彼らが受け取るすべてのAPIリクエストを分析することによってより多くのデータを収集することに重点を置いているのかもしれない。
次に進む前に、多くの人が、DeepSeekはGPUの数とこれらのモデルを訓練するのにかかったGPUの時間について嘘をついていると推測していることを指摘しなければなりません。というのも、このカードには輸出規制があり、トラブルに巻き込まれたくない、あるいはもっと多くのカードを手に入れるチャンスを失いたくないからだ。確かにその可能性はあるが、私は、彼らが真実を語っている可能性の方が高いと思うし、トレーニングや推論方法において極端な創意工夫と創造性を発揮することによって、このような驚くべき結果を達成したに過ぎないと思う。彼らは自分たちのしたことを説明し、その結果が他の研究室の研究者たちによって広く再現され、確認されるのは時間の問題だろう。
更新されたR1モデルや技術レポートは、さらに衝撃的かもしれません。Anthropicを打ち負かし、OpenAI以外でこの技術を大規模に動作させているのは実質的に彼らだけになりました。しかし、OpenAIは2024年9月中旬にO1プレビューモデルをリリースしたばかりである。わずか4カ月ほど前のことだ!留意しなければならないのは、OpenAIはこれらのモデルが低いレベルで実際にどのように機能するかについて非常に口を閉ざしており、マイクロソフトのような厳格な秘密保持契約を結んだパートナー以外には、実際のモデルの重みを開示しないということだ。一方、DeepSeekのモデルは完全にオープンソースで、ライセンスも緩い。彼らは、モデルがどのように機能するかを説明する非常に詳細な技術レポートを公開し、誰でも閲覧して複製を試みることができるコードを提供している。
ディープシークはR1によって、AIにおける難問の1つである、大規模な教師ありデータセットに頼ることなくモデルを段階的に推論させるという問題を本質的に解決した。入念に設計された報酬関数による純粋な強化学習を使って、複雑な推論能力を完全に自律的に発達させることに成功したのだ。単に問題を解くだけでなく、成長連鎖思考を成長させ、その作業を自己検証し、より困難な問題により多くの計算時間を割り当てるよう、モデルは有機的に学習する。
ここでの技術的ブレークスルーは、報酬モデルへの斬新なアプローチである。報酬ハッキング」(モデルの真のパフォーマンスを実際には向上させない偽りの方法で報酬を増加させること)につながる可能性のある複雑なニューラル報酬モデルを使用する代わりに、彼らは(最終的な答えを検証するための)正確性報酬と(構造化された思考を奨励するための)フォーマット報酬を組み合わせた巧妙なルールベースのシステムを開発しました。このシンプルなアプローチは、他の人々が試みたプロセスベースの報酬モデルよりも強力でスケーラブルであることが証明された。
特に魅力的なのは、トレーニング中に、彼らが「啓示の瞬間」と呼ぶ、不確実性に遭遇したときにモデルがプロセスの途中で思考プロセスを修正することを自発的に学習する様子を観察したことだ。この創発的な行動は事前にプログラムされたものではなく、モデルが強化学習環境と相互作用する中で自然に発生したものである。モデルは文字どおり停止し、推論における潜在的な問題にフラグを立て、異なるアプローチで再スタートする。
完全なR1モデルは、強化学習技術を適用する前に、彼らが「コールドスタート」と呼ぶデータ(質の高い少数の例)を導入することで、これらの洞察に基づいている。また、推論モデリングにおける大きな課題である言語的一貫性にも取り組んでいる。DeepSeekは、RLのトレーニング中に言語的一貫性に微妙に報酬を与えることで、この問題を解決しました。
結果は驚くべきものでした。最も難易度の高い高校数学コンテストの1つであるAIME 2024において、R1はOpenAIのO1モデルに匹敵する79.8%の精度を達成しました。MATH-500では97.3%に達し、Codeforcesのプログラミングコンテストでは96.3%を記録した。おそらく最も印象的なのは、彼らはこれらの能力をより小さなモデルに凝縮することに成功したことでしょう。彼らの14Bパラメータのバージョンは、数倍の大きさの多くのモデルを凌駕しており、推論力は生のパラメータ数だけでなく、情報を処理するためにモデルをどのように訓練するかも関係していることを示唆しています。
Twitterや企業の噂サイトBlindで出回っている最新の情報は、このモデルがメタ社の予想ではまったく予想外だったというものです。Metaの予想に反して、まだトレーニング中の新モデルLlama4さえも凌駕していたということだ。どうやらMeta社内のLlamaプロジェクトは技術トップの目に留まったようで、Llamaの開発に13人ほどが携わっており、各人の年俸を合計すると、Llamaよりも優れた性能を持つDeepSeek-V3モデルのトレーニング費用を上回るとのことだ。それをザッカーバーグにどう真面目に説明するのか?ザッカーバーグが10万個のH100のためにNvidiaに何十億ドルも注ぎ込んでいる一方で、より優れたモデルがたった2,000個のH100でトレーニングされ、コストが500万ドル以下だというのに、どうやってザッカーバーグは笑顔を保てるのだろうか?
しかし、Metaや他の大手AI研究所は、これらのDeepSeekモデルを解体し、技術レポートの一語一句や公開されているオープンソースコードの一行一行を研究し、これらの同じトリックや最適化を自分たちの学習や推論プロセスに統合しようと必死になっていると思ったほうがいい!.では、これらすべての影響は何だろうか?トレーニングや推論計算の総需要を、何か大きな数字で割ろうと考えるのは甘い。以前は必要だと思っていたものが、今ではかなり少なくなっているのだから。
楽観主義者は言うかもしれない、「あなたは単純な比例定数の話をしているだけだ。指数関数的な成長曲線を扱っていれば、このようなことはすぐに消え去り、最終的にはそれほど重要ではなくなります」と言うかもしれない。もしAIが本当に私が期待するような変革をもたらすものであり、その技術の実際の有用性が何兆という単位で測定され、推論時間計算がスケーリングの新しい法則であり、多くの推論を常に行う人型ロボットがたくさん生まれるのであれば、成長曲線はまだ非常に急で極端であり、Nvidiaはまだ成功するほど先を行っているのかもしれない。
しかし、Nvidiaはその評価を維持するために、今後数年間は良いニュースがたくさんありそうです。そのすべてを考慮すると、少なくとも私は、2025年の予想売上高の20倍でその株を買うことに非常に不安を感じ始めています。売上高の伸びが少し鈍化したらどうなるか?成長率が100%以上ではなく85%になったら?売上総利益率が75%から70%に下がったら?
マクロレベルでは、NVIDIAは前例のない競争上の脅威に直面しており、その20倍の売上高と75%の粗利益率は、その高い評価を正当化することがますます難しくなっています。マクロレベルでは、エヌビディアは前例のない競争上の脅威に直面している。同社の強みであるハードウェア、ソフトウェア、効率性には憂慮すべき亀裂が生じつつある。
ハードウェアの面では、CerebrasとGroqの革新的なアーキテクチャは、NVIDIAのデータセンター支配の要であるインターコネクトの優位性が、抜本的な再設計によって回避できることを示しています。の複雑なインターコネクト・ソリューションを必要としません。より伝統的に、エヌビディアの主要顧客(グーグル、アマゾン、マイクロソフト、メタ、アップル)はそれぞれ、利益率の高いデータセンターの収益に食い込む可能性のあるカスタムチップを開発している。これらはもはや実験的なプロジェクトではなく、Amazonだけでも40万個以上のカスタムチップを含むAnthropic用の大規模なインフラを構築しています。
ソフトウェアの堀も同様に脆いようです。MLX、Triton、JAXのような新しい高レベルフレームワークは、CUDAの重要性を低下させつつあり、AMDドライバを改善する努力は、より安価なハードウェア代替品の開発につながる可能性があります。高水準の抽象化に向かう傾向は、アセンブリ言語がC/C++に取って代わられつつあることを反映しており、CUDAの優位性が考えられているよりも儚いものである可能性を示唆している。最も重要なことは、どのようなハードウェアターゲットでも実行できるようにCUDAコードを自動的に移植できる、LLMベースのコード変換テクノロジが台頭してきており、NVIDIAの最も強力なロックイン効果の1つを排除できる可能性があるということです。
おそらく最も破壊的なのは、効率性におけるDeepSeekの最近のブレークスルーであり、計算コストのおよそ45分の1でモデル性能に匹敵する性能を達成しています。これは、業界全体が計算資源を大量に過剰に割り当ててきたことを示唆している。このことは、業界全体が計算資源を大量に過剰に割り当ててきたことを示唆している。
Econovillが報じたところによると、Hashedの戦略的焦点は、ブロックチェーンインフラストラクチャを強化し、コンテンツと知的財産権(IP)を統合することによって、ユーザーベースの拡大を目指すアーリーステージのベンチャー企業に置かれている。
HSBC香港がクロスボーダー決済のためのデジタル通貨イニシアチブを強化する一方、規制機関は暗号通貨へのエクスポージャーに寛容な姿勢を示す。これは、この地域の金融情勢における特筆すべき進歩である。
この間、政府は年初の11ヶ月間で合計7860万ソム(約88万3000ドル)を集めた。
ウェブサイト上で「ブロックされました」というメッセージが表示されたユーザーは、チームがこの問題に積極的に対処していることに留意されたい。同プラットフォームでは、トラフィックが正常化すれば、速やかに回復すると見込んでいる。
ビットコインの45,000ドルへの急騰をきっかけに、永久先物の資金調達率が過去最高の66%となり、ロングポジションはコスト高に。市場の専門家は、ビットコインETFの承認が期待される中、強気が持続すると予測している。
xKingdomはSocialFiとGameFiを組み合わせたもので、王国の建設、ヒーローのアップグレード、Twitterの報酬、多面的な収益エコシステムを提供する。
3つの有望な初期段階のGameFiプロジェクト:1つは$6Mの資金調達でひっそりと立ち上げ、もう1つはテストネット・エアドロップとFreeMintを提供し、3つ目は限定500のFreeMintリリースを準備している。
zk-SNARKとECDSAを活用したData Ownership Protocolは、ブロックチェーン領域にユーザー中心のデータプライバシーモデルを導入し、イーサリアムのdAppsとシームレスに統合し、テストネットと紹介プログラムを通じて魅力的なインセンティブを提供します。
中国は、暗号通貨と電子ギフトカードの急増によって促進された腐敗の潮流の高まりに直面しており、従来の腐敗防止の取り組みに挑戦している。専門家は、新たな腐敗形態に対処するための法改正と、効果的なガバナンスのための技術的能力の強化を含む二重戦略を強く求めている。
世界のビットコインATM台数は、2023年の開始から2024年にかけて11.1%減少しており、これまでの増加傾向から大きく外れている。