出典:AI Technology Review
ディープシークの嵐の後、中国の大型モデル新興企業サークルではどのような変化が起きるのだろうか。
最近、私は多くの業界関係者とも話し合いましたが、国内の大型モデルサークルには現在、2つの極端な状態があることがわかりました。
前者は、DeepSeekのエコシステムを積極的に取り入れた算術・モデルサービスベンダーや、ビッグモデルの軍拡競争に参加する余裕のなかったオープンソースの受益者に代表され、後者はその他の中国のビッグモデル新興企業(通称「六虎」)に代表される。後者は、他の中国のビッグモデル新興企業(通称「ビッグモデル6社」)と、過去2年間に彼らに投資したVCによって支配され、「熱しやすく冷めやすい」状況を作り出している。
過去2年間、評価額が1級の大型モデル企業に投資してきたVCチームの中には、社内で「鞭打ち」の準備を始めている/受けているところもあるようで、主な質問の角度は以下の数点に過ぎない。paddingleft-2">
"We've invested in and raised billions of dollars can't do it?" なぜDeepSeekはこれほど低コストでこれほど強力なモデルを訓練できるのか?
"ディープシークは今回ループから抜け出せる。本質は、技術が十分に革新的で強気だということだ。 XXXの一族は基本的なビッグモデルの技術チームすら持っていない。それなのに、なぜ我々が投資しなければならないのか?"
"DeepSeekが出てきた後、誰がまだビッグモデル六虎に投資するのだろうか?上場する見込みがあるのはどこでしょうか?そうでなければ、買い戻すのか、それとも撤退するのか?"
......
「ディープシークにならなかった理由」、そして「なぜ中国にはディープシークが1つしかないのか」は、春以来、ほとんどすべてのビッグモデルの実務者とVCが抱いている疑問です。この2つの質問は、中国におけるビッグモデルのイノベーションに関する不安のほとんどすべてをカバーしており、この2つの質問を真剣に探求することによってのみ、我々はもう1つのより重要な質問に答えることができる:どうすればディープシークになれるのか
我々は、中国と米国のAIイノベーションの比較という観点から、業界にメッセージを送ろうとした:中国のAIは国家の誇りを持つ必要がある;そしてこの記事では、中国にディープシークが1つしかない理由について議論する。この記事では、過去4年間の中国における大型モデルの歴史を見ることで、さらに一歩踏み込みたいと思います:
2020年にGPT-3が発生して以来、大型モデルのストーリーを追ってきた業界誌として、この投稿は、このようなマクロで深遠な問いに答えることを意図しているのではなく、むしろ、このトピックに関連すると思われるいくつかの事実や意見とともに、第三者の視点を提示することを目的としている。
1 システム的なズレ
2023年以前、中国には大きなモデル企業は、ウィズダムスペクトラム、ヌードル、ディープスピーチ、リスニングハート(後にウィズダムスペクトラムが買収)の4社しかなく、いずれも清華大学出身でした。
ビッグモデルの技術的障壁は高いが、真似できないものではない。既存のオープンソース・ビッグモデルをベースとすることで、技術的な難易度はさらに下がり、「技術はビジネスの障壁にならない」という主張が非常に盛んです。
このような集団的コンセンサスが「君臨」しているため、2023年のChatGPT爆発後の中国におけるいくつかのビッグモデル新興企業の勢力図を見直すことで、中国のビッグモデル起業シーンにおける現在の異変を理解することは容易である:
第一に、市場全体が技術革新に畏怖の念を抱いているため、中国市場にとって何が起きているのかを理解することがますます難しくなっている。第一に、市場全体の技術革新に対する畏敬の念が弱まるにつれて、2023年のChatGPT炎上の後、中国のビッグモデル技術の先駆者の第一陣の1つであるチップだけが、資本の寵児となり、最も早く評価額200億元の大台を突破し、ビッグモデルの第一陣の一角を占めるようになった。(ダークサイド・オブ・ザ・ムーンは2023年以降に設立されたため、カウントされていません。)
清華自然言語処理研究室(THUNLP)出身の残りの2つの新興企業、MianbiとShenyinは、資本市場では後発の新興企業よりもはるかに人気がありません。
特に、面壁知能(DeepSeekは、製品に集中することを選択したため)、最も早いように「大きなモデルの民間版」を行うことを提案し、DeepSeekの技術ビジョンと技術革新の方向性が最も類似しており、さらに早くDeepSeekは、会社を設立し、2024年末まで3億元を完了する。2024年末に3億元の資金調達ラウンドを完了した後、同社の評価額は35億元未満となり、第1層の200億元の基準値には遠く及ばなかった。
Leifeng.comのAI Technology Reviewが過去2年間に50人以上の大型モデル投資家と交わした意見によると、同じ清華出身で、技術的な先行者利益と優秀な若い技術人材を持っているWisdom SpectrumとFace Wallの間にこれほど大きな差があるのは、主にいくつかの理由による。
1つは、清華の学者が「教授が自分のビジネスを始めることに抵抗がある」ため、台座を追いかける単一のモデルに賭けていること。第二は、知恵スペクトルのビジョンがよりよく理解され、初期の外部資金調達は、"ベンチマークOpenAI "と述べた、VCはすぐに理解するが、顔の壁は、2023年に最もホットなお金で、基礎となるモデルの訓練の効率の最適化に重点を置いての始まりは、かつてルーセント、シリコンベースの "A"、"A"、"A"、"A"、"A"、"A"、"A"、"A "などに似た会社であると考えられていたことです。
ファサードインテリジェンスは、2023年にはあまり資金を得ることができず、ベースの大きなモデルに投資することができず、DeepSeek V3のようなベースの大きなモデルのトレーニングを通じて、効率的なトレーニングの重要性を直感的にフィードバックし、2024年には、DeepSeek V3の仕事よりも「効率的なトレーニング」のお墨付きの効果がはるかに低い、小さなモデルの末端側に行かなければならなかった。DeepSeek V3は、「効率的なトレーニング」を提唱する上で、DeepSeek V3のような仕事よりもはるかに劣っています。
2022年と2023年、資金調達の際、Facadeは「効率的なトレーニング」という旗印を掲げて臨んだが、VCからはほとんど拒否された。
第二に、それはまた、技術に恐れがないという環境の前提であり、2023年に大きなモデルの波の後、中国のAI技術のVCは、実際にAGIの技術の研究に心を沈めなかったが、迅速に「戦争に勝った歴代の成功した起業家」にお金を置くテーブルに着くために。同社のAI技術のVCは、AGIの技術に心血を注ぐのではなく、「戦いに勝利した連続成功起業家」に資金を投入し、たとえこれらのチームが大規模なモデル開発の経験がなくても、迅速にテーブルに着くことを目指したのだ。
この最も典型的な代表は、王輝文(Wang Huiwen)の「ライト・イヤーズ・アウェイ(Light Years Away)」と王小川(Wang Xiaochuan)の「バイチュアン・インテリジェンス(Baichuan Intelligence)」です。
現在、評価額が200億元を超える大型模型企業の中で、大型模型がまだ輪から外れていない2020年から大型模型の技術探求を始めたのは、智慧スペクトラムの唐傑や冥途の楊士林などだけで、百川智能、ミニマックス、ステップスターのほとんどのチームは2023年以降になってから仕事を始めた
これが最も典型的な代表である。
例えば、MiniMaxの創設者であるジョン・ヤンはコンピュータビジョンのバックグラウンドから来たが、大きなモデルは当初、言語的知能(マルチモダリティは別の章)を扱っていた。しかし、MiniMaxは最初に、資本の好意を得るために、基礎となるビッグモデル技術ではなく、円環から抜け出すために製品Glowに依存したので、これは別の次元であり、ヤン・ジュンジェに近い人々の彼に対する評価は、「非常に技術的な追求」である。
ディープシークの研究開発チームも0から大型モデル技術を学び、論文を読み、実験を研究したため、これまで大型モデルを訓練したことのないチームが2023年以降に猛勉強して技術の欠点を補えないということはないが、この2年間の業界の発展から見ると、白川智能の基礎モデルのアップグレードは頻度が少なく、医療業界の大型モデルに焦点が移っている。
この2年間、百全情報はベースモデルのアップグレードを頻繁に行っておらず、医療業界の大型モデルへとシフトしている。
ビデオのような大型モデルを育成していないため、白川は他社よりも研究開発費が低く、キャッシュフローも潤沢だが、これは白川の利益になるだけで、大型モデル業界全体の発展には寄与していない。
資源が限られている状況で、技術力のないチームが大量の資本資源を占め、逆に技術力のあるチームはごく少量の資本資源しか得られないと仮定すると、資金と才能の体系的なミスマッチは、後悔ばかりで未来のない結果を生む運命にある。
もしAGIのビッグモデル技術が本当に成長の余地がなく、技術的な障壁が徐々に平らになっているのであれば、インターネット時代の臨機応変で資本集約的なアプローチも、最後の一杯の分け前を得ることができるかもしれない。しかし、技術起業家の恐怖は、常に冷静さを保ち、まだ訓練と推論の欠陥の基礎となるアルゴリズムとアーキテクチャの既存の大規模なモデルを見ることができ、AGIはまだ解決するために多くの具体的かつ困難な問題を抱えていることを知っている。
つまり、革新し続ける基礎技術の能力は、依然として大型モデル企業の堀であり、純粋に資源を奪い合うというインターネットの方法論は、中国の大型モデルの現在の発展には当てはまらない。
しかし、2023年と2024年のビッグモデル投資のための「クラブ・ディール」さえあるのだから、これらの言葉はおそらく中国のハイテクVCのほとんどには認識されないだろう......。......
ビッグモデル開発の最後の2年間において、技術を学ぼうとしないVCは、技術を学ぼうとしない研究開発者よりも致命的だろう。
バブル期はいずれ終わる。潮が引いたとき、誰が裸で泳いでいるのかが明らかになるだろう。
2 AGI軍団を手に入れるのは難しいかもしれません
技術に対する市場の敬意の欠如のもう1つの影響は、市場に対応するために(そしてもちろん、大企業の囲い込みから抜け出すために)、過去2年間、中国のビッグモデルの新興企業の目が、長期的なAGIから短期的な商業収益と製品改良に向けられるようになったことです。
このアプローチの変化は、ビッグモデルにはもうイノベーションはないという、前述の業界の誤算によるものでもある。AGIの追求に熱心な起業家は、ビジネスとテクノロジーの両方のバランスを取らなければなりません。一方、AGIに懐疑的な人や、市場の雑音に完全に混乱している人は、事前トレーニングをあきらめるか、Cサポートアプリケーションにシフトするか、あるいは単にオープンソースモデルのみに基づいて業界のビッグモデルを微調整することになるでしょう。
GPT-3からChatGPTの出現まで2年半かかりましたが、市場は一般的に「パターン」を示しています。一部の大手モデル企業は「L2」と「L4」の両方のステップにこだわることができますが、AGIに投資された人材と研究リソースの点で、ディープシークほど純粋な企業はありません。
2023年前半に資金調達合戦が始まったとき、業界の分析の1つは、前世代のAI企業の「洗礼」を受けた中国のVCは、大型モデル企業の商業化に対する忍耐を5年や8年から3年に短縮したというものだった。
これは中国の大型モデル企業に共通するジレンマかもしれない。
ディープシークが梁文峰の個人資金とファントムスクエアの元手資金を頼りに、外部からの資金調達をせずにAGI研究に注力していることは周知の事実です。"私は自分のお金を持っているので、外部に耳を傾ける必要はなく、好きなことができる"。-- これは多くの大手モデル企業がディープシークを羨む点である。
最近では、もともとAGIに水を差していた朱小虎が、DeepSeekのおかげでAGI企業に投資してもいいと考えを改めたという。 DeepSeekはその優れた技術力でVCの見方を変えたとも言えるが、もっと残酷な現実は、もしかしたら、優れたイノベーション能力を持つ多くのチームが、資金調達に失敗して時代の前夜に没落してしまうかもしれないということだ。
「商業化メンタリティ」は、一部のハイテクVCの影だけでなく、研究開発人材の選択にも反映されている。
ヘッドハンターによれば、バイトダンスは間違いなく、2024年の中国における人材にとって最大の「急所」となるだろう。大規模工場とスタートアップチームの間に分断が形成され、スタートアップチームから大規模工場への大規模モデル人材の流れは、この1年で一般的な選択肢となった。例えば、AI Technology Reviewが知る限りでは、AGIのために数多くのNLP、マルチモーダル、強化学習の人材を探したDeepSeekは、DeepSeekとByteDanceの間でByteDanceを選んだ。
初期にディープシークで働いていたヘッドハンターによると、ディープシークも初期にはグーグルやメタ、OpenAIといった海外のチームから優秀な人材を引き抜こうと考えていたそうですが、うまくいかなかったため、次善の策に落ち着き、独自に育成することになったそうです。
AGIの投資には、資金だけでなく、人、そして絶対的な技術的理想主義者のグループ、さらに優れた組織文化も必要です。 ディープシークの成功は再現不可能かもしれませんが、V2、V3からR1、R1-Zeroに至るまで、ディープシークの技術的成果は、資金、人材/理想、組織文化の面での優位性を反映しています。
DeepSeekの前に、「北九君、南幻角」は金融定量分野でよく知られており、定量業界はまた、基本的にトップ2の大学、金メダリストのベンチマークとして情報学大会に、技術的な才能の需要が高いことで知られている、チームは多くの場合、大規模ではありませんが、超強力な能力です。AI Technology Reviewによると、2024年上半期、DeepSeekのチーム規模はわずか40人で、そしてそのほとんどがオリジナルの幻のTop2技術専門家である。
オリジナルのファントムと同じ流れを引き継ぎ、ディープシークの採用の敷居は非常に高くなっている。例えば、2024年半ばからマルチモーダルや強化学習のエキスパートを探していますが、半年募集しても該当するポジションはまだ空席で、必要以上の人材を雇うことを好んでいます。「
De
ディープシークの社内組織文化も非常にフラットだ。AI Technology Reviewによると、北京にも杭州にも上司は1人だけで、それはディープシーク創業者の梁文峰(Liang Wenfeng)氏だ。「梁文峰以下は基本的にヒットマンばかりだ。
さらに、梁文峰の個人的なスタイルも一目瞭然だ。彼はテクノロジーに対する強い信念を持ち、AGIについて学びたいという好奇心と欲求に満ちており、非常に勤勉である。レオンと親しいある関係者は、レオンについて「話すのがとてもとても遅く、一文一文を表現する前に長い時間考えなければならず、表現はとても簡潔だ」と評した。簡潔ではあるが、その言葉はしばしば正鵠を射ている。"
ディープシークのチーム文化は、玉树やMomentaのような企業と非常によく似ている。チームメンバー全員が技術愛好家であり、技術に対する自然な敬意と好奇心を持っている。同時に、中央集権的な管理スタイルとフラットな文化を持っているため、技術探索で困難に遭遇した際には、トップダウンでリソースを調整し、迅速な情報のアップロードと発信を実現することができる。
同時に、玉树とDeepSeekは独自の採用基準を持っており、市場の標準的な面接スタイルとは大きく異なっている。興味のある読者は、詳細を知ることができる。
DeepSeekの梁文峰は、業界がまだ一般的に気づいていなかった早い段階から、より強力なモデルを低コストで訓練する方法を模索し始めた。同様に、YushuのWang Xingxingは、人々がまだロボット犬を理解していなかったときに、四足歩行のロボット犬をやり始め、MomentaのCao Xudongは、自律走行業界がまだ一般的に二足歩行のL4に執着していたときに、同時にL2とL4をやり始めた。
主流にあえて逆らうスタートアップチームには、強い反骨精神が必要だ。AI Technology Reviewの多くの投資家とのコミュニケーションでは、このような「反骨精神」は「若者集団」に分類されやすいのですが、私の考えでは、反骨精神の底辺は、チームが解決しようとしている社会問題に対する知識、判断力、技術的自信から来るものです。チームが解決しようとしている社会問題に対する知識、判断力、技術的自信、つまり、自分たちの進むべき道が未来であり、大きな価値をもたらすという確信が底辺にある。
3 イノベーションを味わう
V2が価格競争を一蹴した後、レオンは『ダーク・サージ』のインタビューで、この技術的達成について「米国で毎日起きている膨大なイノベーションの中では、ごくありふれたものだ」とコメントした。」
レオン氏はV3とR1以降、発言していないが、ディープシークとレオン氏にとって、AGIが完全に実現するまでは、V3とR1の技術革新は「ごく普通のもの」に過ぎないのかもしれない。--後者2つの画期的な技術やメリットを否定するのではなく、影響力の大きいチームは、100を80のように聞こえさせ、常にプラスアルファを求める傾向があるということを強調したいのです。
R1がリリースされ、業界の上級強化学習学者はAI Technology Reviewの分析で、「RL+SFTパラダイムを純粋なRLアルゴリズムに置き換えた後、遅くとも3年後にはAGIが実装されると思います。」
サム・アルトマンは「AIは2025年までに人間を超えるだろう」と述べ、マスクは「AGIは遅くとも2026年までには実現するだろう」と述べている。
「AGIポイント・イン・タイム(AGI point in time)」と呼ばれるすべての予測で、それがいつ起こるかを正確に伝えるのは難しいが、それが起こっていることは感じられる。
トレンドは知られており、ディープシークの取締役会は、少なくとも2つの事実を皆に知らしめた。1つは、AGI技術が天井に達していないということであり、もう1つは、中国の技術チームには、AGIで世界をリードするイノベーションを起こす能力があるということである。ディープシークの勝利に歓喜するのではなく、次のステップは中国におけるAGIの発展を促進することだ。
この半月で、ディープシークの嵐は、大手メーカー、新興企業、コンピューティングパワーベンダー、投資家などによるAGI開発への認識に新たな変化をもたらした。以前は無視されていた部屋の中の象のような問題が再び前面に出てきたり、古い固定観念が覆されたりしている。しかし、一致して変わったのは、現段階では、AGIの実現にはまだ理想主義が必要であることを誰もが認識しているということだ。
OpenAIやDeepSeekが次に何をするかを推測するよりも、AGIが解決すべき技術的問題を推定することのほうが重要なのです。言い換えれば、イノベーションは模倣よりも重要なのです。
実際、AI Technology Reviewが過去1年間に行ったインタビューによると、DeepSeekに加え、中国には優れた問題を解決するために革新を続け、新しいソリューションを考え出すAIの才能がたくさんいる。
香港大学コンピューティング・データサイエンス研究所の学長であるマー・イー教授は、過去2年間、高コンピューティングパワーの進歩によって訓練された現在のビッグモデルは、知能ではなく知識を持っていると強調してきた。ディープラーニングのブラックボックス的資質とは一線を画し、馬毅のチームは解釈と制御が可能なAIアルゴリズムとフレームワーク(ホワイトボックス理論)に取り組んできた。
CNCC 2024では、Smart SpectrumのTang Jie氏がマルチモーダル技術開発の次のステップについて言及した。2021年以来、Smart Spectrumチームはマルチモーダル・マクロモデルを探求してきた。Smart Spectrumチームによると、初期の探索では、テキスト、画像、音声、動画などのマルチモーダルデータを同時に注入してビッグモデルを訓練すると、一方のモダリティのデータが他方のモダリティの知識・知性を弱めるという同様の問題に遭遇したという。マルチモダリティがトレンドである一方で、モダリティ間のデータアライメントを最適化し、高品質なデータを収集し、マルチモダル・モデルの常識や推論能力を高める方法については、まだまだ研究の余地があります。
また、2024年3月に行われたFacadeチームの創設メンバー数名とのコミュニケーションによると、現在主流のビッグモデルアーキテクチャは、実際にはいくつかの重要な問題をうまく解決することができず、そのためAGIに近づくことは難しいそうです:例えば、経験学習や空間記憶など。例えば、人は何かを何度も学習することで習熟度を高めたり、新しい環境に素早く慣れ、別の問題の知識を効率的に新しい環境に移したりすることができる。これらは、現在のトランスフォーマーではうまく表現できない問題である。
具現化された知能の発展により、AGIは自然にクラウドAGIとエンドサイドAGIに分けられるようになるでしょう。これは、環境を感知して高次の推論を行い、その高次の推論に基づいて複雑な多段階の意思決定を行うことが自然にできるモデルを指します。話題のEmbodied Brainもこの流れに沿ったものであり、この方向性にはまだまだ解決すべき問題が多い。これらの問題を解決するためには、リソースに加えて、強い技術力と技術的ビジョンが必要だ。
o1のリリース後、ビッグモデル分野の研究の多くは推論に向かい始めましたが、人づてによると、GoogleのGeminiチームは最近、新世代のベースモデルを完成させ、少数のユーザーにテスト用に公開したとのことです。
2023年にOpenAIで打撃を受けたグーグルの株価は急落したが、2020年6月から2022年にかけてのグーグルのビッグモデル技術を見てみると、グーグルのビッグモデル・アプローチは、演算、アーキテクチャ、アルゴリズムの上位レイヤーといったボトムアップからシステムを構築していくものであることがわかる。これもまた、Google Geminiが後に力を発揮できる重要な理由かもしれない。
ディープシークの道筋も似ている。DeepSeekの技術開示によると、その大規模モデルの研究の道筋も、Wankaクラスタの底から、HAIフレームワークを通して上へ上へと、連動した技術システムを構築している。
権威を警戒し、常に問題の本質から逆算し、しっかりと革新していくことが道を切り開く。
短期的な早い金は幸運な者に流れるかもしれないが、長期的な資源は、それを最大限に活用することに秀でたチームに流れるはずだ。
願わくば、2025年までに、中国にディープシークが1つしか存在しなくなることを。