著者:Zeke, YBB Capital; 翻訳者:0xjs@GoldenFinance
まえがき
2月16日、OpenAIはリテラルビデオのための最新の生成拡散モデル「Sora」のローンチを発表した。様々なビジュアルデータタイプで高品質のビデオを生成する能力により、ジェネレーティブAIの新たなマイルストーンとなる。複数の画像から数秒間の動画を生成するPikaのようなAI動画生成ツールとは異なり、Soraは動画と画像の圧縮された潜在空間上で学習し、時空間パッチに分解してスケーラブルな動画を生成する。さらに、このモデルは物理世界とデジタル世界の両方をシミュレートする能力を示しており、60秒のデモは「物理世界のユニバーサル・シミュレーター」と評されている。
Soraは、これまでのGPTモデルの「ソースデータ-トランスフォーマー-拡散-出現」という技術経路を引き継いでおり、その成熟度も演算依存であることを示唆しています。ビデオ学習に必要なデータ量がテキストよりも多いことを考えると、演算能力への要求はさらに高まると予想される。しかし、AI時代における演算の重要性については、前回の記事「潜在的な産業展望:分散型演算市場」で述べたように、すでに検討されており、AIの普及に伴い、多数の演算プロジェクトが誕生し、DePINプロジェクト(ストレージ、演算能力など)の恩恵を受けており、その価値が急増している。DePINを超えて、この記事は、Web3とAIの絡み合いから生じるかもしれない火花と、AI時代のこのトラックにおける機会について考え、過去の議論を更新し、洗練させることを目的としています。
AI開発の3つの大きな方向性
AIは、人間の知能をシミュレートし、拡張し、強化することを目的とした、新たな科学技術です。1950年代と1960年代に誕生して以来、AIは半世紀以上にわたって進化を遂げ、今では社会生活や産業全体の変化を促す重要な技術となっています。その過程で、象徴主義、接続主義、行動主義という3つの主要な研究方向が絡み合って発展し、今日のAIの急速な発展の基礎を築きました。
記号論
記号論は、論理主義やルールベースの推論としても知られており、記号の処理を通じて人間の知能をモデル化することが可能であると主張しています。このアプローチは、問題領域内のオブジェクト、概念、およびそれらの関係を表し、操作するために記号を使用し、問題を解決するために論理的推論を採用しています。記号論は、特にエキスパートシステムや知識表現において大きな成功を収めている。シンボリズムの中心的な考え方は、シンボルの操作と論理的推論によって知的行動が達成できるということであり、シンボルは現実世界の高レベルの抽象化を表している。
コネクショニズム
あるいはニューラルネットワークアプローチとして知られるこのアプローチは、人間の脳の構造と機能を模倣することで知能を実現することを目指している。このアプローチでは、多くの単純な処理ユニット(ニューロンに似ている)からなるネットワークを構築し、これらのユニット間の接続の強さ(シナプスに似ている)を調整して、学習を促進する。コネクショニズムは、データから学習し汎化する能力を重視するため、パターン認識や分類、連続的な入出力マッピング問題に特に適している。コネクショニズムを進化させたディープラーニングは、画像認識、音声認識、自然言語処理などの分野で飛躍的な進歩を遂げている。
行動主義
行動主義は、バイオニックロボットや自律知的システムの研究と密接に関連しており、知能は環境と相互作用することで学習できるということを強調しています。前者2つとは異なり、行動主義は内部表現や思考プロセスのモデリングに焦点を当てるのではなく、知覚と行動のサイクルによる適応行動に焦点を当てる。行動主義では、知能は環境との動的な相互作用や環境からの学習を通じて発現すると主張し、複雑で予測不可能な環境で動作する移動ロボットや適応制御システムに特に有効であるとしている。
これら3つの研究の方向性は、基本的には異なるものですが、AIの実用的な研究と応用において相互に作用し、統合することが可能であり、共に人工知能の分野を発展させることができます。
AIGCの原理
AIGCの爆発的な発展分野は、人間の創造性を模倣することで斬新なコンテンツを生成できるコネクショニズムの進化と応用を表しています。これらのモデルは、大規模なデータセットと深層学習アルゴリズムを使って訓練され、データの根本的な構造、関係、パターンを学習します。ユーザーのプロンプトに基づいて、画像、動画、コード、音楽、デザイン、翻訳、質問への回答、テキストなどのユニークな出力を生成する。現在、AIGCは基本的に3つの要素で構成されている:ディープラーニング、ビッグデータ、巨大なコンピューティングパワーだ。
ディープラーニング
ディープラーニングは、人間の脳のニューラルネットワークを模倣したアルゴリズムを使用する機械学習のサブ分野です。たとえば、人間の脳は何百万もの相互接続されたニューロンから構成されており、それらが連携して情報を学習・処理します。同様に、ディープラーニング・ニューラルネットワーク(または人工ニューラルネットワーク)は、コンピューター内で連携して働く人工ニューロンの複数の層で構成されている。これらの人工ニューロン(ノードと呼ばれる)は、数学的計算を使ってデータを処理する。人工ニューラルネットワークは、これらのノードを使用して、深層学習アルゴリズムによって複雑な問題を解決する。
.ニューラルネットワークは、入力層、隠れ層、出力層という層に分かれており、それぞれの層をつなぐパラメータがあります。
入力層: ニューラルネットワークの最初の層で、外部入力データの受信を担当する。入力層の各ニューロンは入力データの特徴に対応する。例えば、画像データを処理する場合、各ニューロンは画像のピクセル値に対応する。
隠れ層:入力層はデータを処理し、さらにネットワークに渡す。これらの隠れ層は異なるレベルで情報を処理し、新しい情報を受け取ると振る舞いを調整する。ディープ・ラーニング・ネットワークは、問題を多角的に分析するために何百もの隠れ層を持つ。例えば、分類が必要な未知の動物の画像が提示された場合、耳の形、脚の数、瞳孔の大きさなどを調べることで、すでに知っている動物と比較することができる。ディープ・ニューラル・ネットワークの隠れ層も、これと同じように機能する。深層学習アルゴリズムが動物の画像を分類しようとする場合、各隠れ層は動物の異なる特徴を処理し、それを正確に分類しようとする。
出力層:ニューラルネットワークの最終層は、ネットワークの出力を生成する役割を担う。出力層の各ニューロンは、可能な出力カテゴリまたは値を表します。例えば、分類問題では、各出力層のニューロンはカテゴリに対応するかもしれないが、回帰問題では、値が予測を表す出力層のニューロンは1つだけかもしれない。
パラメータ:ニューラルネットワークでは、異なる層間の接続は重みとバイアスで表されます。パラメータを追加することで、ニューラルネットワークのモデリング能力、すなわちデータ内の複雑なパターンを学習し表現する能力が向上する。しかし、これは計算能力に対する要求も増加させます。
ビッグデータ
効果的なトレーニングのために、ニューラルネットワークは一般的に、大規模で多様、高品質でマルチソースのデータを必要とします。これは、機械学習モデルのトレーニングと検証の基礎を形成します。ビッグデータを分析することで、機械学習モデルはデータのパターンと関係を学習し、予測や分類を可能にすることができます。
膨大な計算能力
ニューラルネットワークの多層構造は複雑で、多くのパラメーター、ビッグデータ処理要件、反復学習アプローチ(学習中にモデルを何度も反復する必要があり、活性化関数計算、損失関数計算、勾配計算、ウェイト更新など、各層での前方伝搬計算と後方伝搬計算を含む)、高精度計算要件、並列計算能力、最適化と正則化技術最適化・正則化技術、モデル評価・検証プロセスなどが相まって、高い計算能力が必要とされます。
Sora
OpenAIの最新のビデオ生成AIモデルであるSoraは、多様なビジュアルデータを処理し理解するAIの能力に大きな進歩をもたらします。ビデオ圧縮ネットワークと時空間パッチ技術を採用することで、Soraは世界中のさまざまなデバイスによってキャプチャされた大量のビジュアルデータを統一された表現に変換し、複雑なビジュアルコンテンツの効率的な処理と理解を可能にします。テキスト条件拡散モデルを使用することで、Soraはテキストの手がかりに高度にマッチしたビデオや画像を生成することができ、高い創造性と適応性を発揮します。
しかし、ビデオ生成と実世界でのインタラクションのシミュレーションにおけるブレークスルーにもかかわらず、Soraは、物理世界シミュレーションの精度、生成され成長したビデオの一貫性、複雑なテキストコマンドの理解、トレーニングと生成の効率など、多くの制限に直面している。本質的に、Soraは、OpenAIの演算能力の独占と先行者優位性によって、「ビッグデータ-トランスフォーマー-拡散-出現」という旧来の技術路線を継承し、総当たり的な美学を実現している。他のAI企業は、技術革新によって彼らを凌駕する可能性をまだ持っている。
Soraはブロックチェーンとはあまり関係がないが、今後1、2年のうちに、Soraの影響により、他の質の高いAI生成ツールが登場し、急速に発展し、GameFi、ソーシャルプラットフォーム、創造性プラットフォーム、Depinなど、様々なWeb3領域に影響を与えると考えられている。そのため、Soraについての一般的な理解が必要であり、今後どのようにAIをWeb3と効果的に組み合わせることができるかが重要な検討課題となります。
AI×Web3融合への4つの道
前述したように、ジェネレーティブAIに必要な基本要素は、基本的にアルゴリズム、データ、計算能力の3つであると理解できる。一方、その偏在性と出力効果を考慮すると、AIは生産方法に革命をもたらすツールである。一方、ブロックチェーンの最大のインパクトは、生産関係の再構築と分散化の2つである。
したがって、この2つの技術が衝突することで、以下の4つの道が生まれると私は考えています:
非中央集権化された演算
前述したように、このセクションの目的は、計算能力の状況をアップデートすることです。AIに関して言えば、計算能力は不可欠な側面です。Soraの出現は、AIのための計算能力に対する想像を絶する必要性を前面に押し出しました。最近、スイスのダボスで開催された世界経済フォーラム2024で、OpenAIのCEOであるサム・アルトマンは、演算とエネルギーが現時点での最大の制約であると公言し、将来的には暗号通貨と同等の重要性を持つ可能性さえ示唆した。そして2月10日、サム・アルトマンは、7兆ドル(2023年の中国のGDPの40%に相当)を調達して現在の世界の半導体産業を大改革し、半導体帝国の創設を目指すという衝撃的な計画をツイートした。コンピューティング・パワーに関する私のこれまでの考えは、国家による封鎖と企業による独占に限られていた。1つの企業が世界の半導体産業を支配しようという考えは、本当に正気の沙汰ではない。
したがって、分散型コンピューティングパワーの重要性は自明である。ブロックチェーンの性質は、コンピューティングパワーの極端な独占という現在の問題や、専用GPUの取得に関連する高価なコストに対処するものです。AIの要件から見ると、演算能力の利用は推論とトレーニングの2つの方向に分けられる。分散型ネットワークは統合型ニューラルネットワークの設計が必要で、ハードウェアへの要求が極めて高く、敷居が高く実装が難しい方向であるため、トレーニングに焦点を当てたプロジェクトはまだほとんどない。対照的に、推論は、分散型ネットワーク設計がそれほど複雑ではなく、ハードウェアと帯域幅の要件が低いため、比較的単純であり、より主流の方向となっています。
中央集権的な演算市場には、「兆」というキーワードから連想されるような広大な想像力があり、AI時代において最も誇大宣伝しやすい話題でもあります。しかし、最近登場した多くのプロジェクトを見てみると、そのほとんどがこのトレンドに便乗しようとする思慮の浅い試みのように思える。それらはしばしば分散化の旗印を掲げるが、分散型ネットワークの非効率性についての議論は避けている。さらに、多くのプロジェクトが非常に類似している(ワンクリックL2+マイニング設計)ため、設計の均質化が進んでおり、最終的には失敗につながり、従来のAI競争で自分の地位を占めることが難しくなるかもしれません。
アルゴリズムとモデルシナジーシステム
機械学習アルゴリズムとは、データからパターンやルールを学習し、それに基づいて予測や決定を行うことができるものです。アルゴリズムの設計と最適化には深い専門知識と技術革新が必要なため、アルゴリズムは技術集約的です。アルゴリズムはAIモデルのトレーニングの中核であり、データを有用な洞察や意思決定に変換する方法を定義する。一般的な生成AIアルゴリズムには、Generative Adversarial Networks (GAN)、Variational Autocoders (VAE)、Transformersなどがあり、それぞれ特定のドメイン(描画、言語認識、翻訳、動画生成など)や目的に合わせて設計され、特殊化されたAIモデルの学習に使用されます。
それでは、これほど多くのアルゴリズムやモデルがあり、それぞれが長所と短所を持っている中で、それらを共通のモデルに統合することは可能なのでしょうか?Bittensorは最近注目を浴びているプロジェクトで、より効率的でより有能なAIモデルを作成するために、異なるAIモデルやアルゴリズムが互いに協力し、学習するよう奨励することで、この道をリードしています。この方向性に焦点を当てた他のプロジェクトには、Commune AI(コード・コラボレーション)などがあるが、アルゴリズムやモデルはAI企業の機密事項であり、簡単に共有することはできない。
したがって、AIコラボレーション・エコシステムという物語は斬新で興味深い。コラボレーション・エコシステムは、ブロックチェーンの利点を利用して、孤立したAIアルゴリズムの欠点を統合するものですが、それに見合った価値を生み出せるかどうかはまだわかりません。結局のところ、自律的なアルゴリズムとモデルを持つ主要なAI企業は、更新、反復、統合を行う強力な能力を持っている。例えばOpenAIは、初期のテキスト生成モデルから2年足らずでマルチドメイン生成モデルへと移行した。Bittensorのようなプロジェクトは、彼らのモデルやアルゴリズムがターゲットとする領域において、新たな道を探る必要があるかもしれません。
非中央集権型ビッグデータ
単純な観点から言えば、AIや注釈付きデータを供給するためにプライベートデータを使用することは、ブロックチェーン技術と非常によく合う方向性であり、主な検討事項はスパムや悪意のある行動をいかに防ぐかということです。さらに、データの保存は、FILやARのようなDePINプロジェクトに利益をもたらすことができる。より洗練された観点から、ブロックチェーンのデータを機械学習に利用して、ブロックチェーンのデータアクセシビリティに対処することも興味深い方向性です(ギザの探求の1つです)。
理論的には、ブロックチェーンのデータは、ブロックチェーン全体の状態を反映し、容易にアクセス可能です。しかし、この膨大なデータへのアクセスは、ブロックチェーンエコシステムの外部の人間にとっては簡単ではない。ブロックチェーン全体を保存するには、広範な専門知識と多くの特殊なハードウェア・リソースが必要だ。ブロックチェーン・データへのアクセスの課題を克服するため、業界ではさまざまなソリューションが登場している。例えば、APIを通じてノードアクセスを提供するRPCプロバイダーや、SQLやGraphQLを通じてデータ検索を可能にするインデックスサービスが、問題解決に重要な役割を果たしている。rPCサービスは、大量のデータクエリを必要とする高密度なユースケースには適しておらず、しばしば需要を満たすことができない。一方、インデックスサービスは、より構造化されたデータ検索の方法を提供しますが、Web3プロトコルの複雑さにより、効率的なクエリを構築することが非常に難しく、時には数百行、数千行の複雑なコードを必要とします。この複雑さは、平均的なデータ実務者やWeb3の詳細について知識の乏しい人々にとって大きな障害となっている。こうした制限の累積効果は、ブロックチェーンデータにアクセスし活用するための、よりアクセスしやすく利用しやすいアプローチの必要性を浮き彫りにし、この分野での幅広い採用とイノベーションを促進する可能性があります。
したがって、ZKML(オンチェーン機械学習の負担を軽減するZero Knowledge Proof Machine Learning)と高品質のブロックチェーンデータを組み合わせることで、ブロックチェーンデータのアクセシビリティに対処するデータセットを作成できる可能性があります。時間の経過とともに、開発者、研究者、機械学習愛好家は、効果的で革新的なソリューションを構築するために、より高品質で関連性の高いデータセットにアクセスできるようになります。
AI対応Dapps
AIでDappsを実現することは、2023年のChatGPT3の爆発的な普及以来、非常に一般的な方向になっています。広く適用可能なジェネレーティブAIをAPI経由で統合することで、データプラットフォーム、取引ボット、ブロックチェーン百科事典、その他のアプリケーションを簡素化し、スマート化することができます。その一方で、チャットボット(Myshellなど)やAIコンパニオン(Sleepless AI)として機能したり、生成AIを使ってブロックチェーンゲームのNPCを作成することもできる。しかし、技術的な障壁が低いため、そのほとんどはAPIを統合した後の微調整に過ぎず、プロジェクト自体との統合は不完全であるため、言及されることはほとんどない。
しかし、Soraの登場により、個人的にはGameFi(メタユニバースを含む)やクリエイティブプラットフォームのAIによるエンパワーメントが今後の焦点になると考えています。Web3スペースのボトムアップの性質を考えると、伝統的なゲーム会社やクリエイティブな会社と競争できる製品を生み出せるとは思えません。しかし、Soraの出現は、この行き詰まりを打破する可能性がある(おそらくわずか2〜3年のうちに)。Soraのデモから判断すると、短編劇団と競合する可能性を秘めている。また、Web3の活気あるコミュニティ文化は、興味深いアイデアを豊富に生み出し、想像力だけが唯一の限界である従来のボトムアップ型産業とトップダウン型産業の垣根を取り払うかもしれない。
結論
ジェネレーティブAIツールが進化し続けるにつれて、私たちは今後、より多くの画期的な「iPhoneモーメント」を目撃することになるでしょう。AIとWeb3の統合に対する懐疑的な見方にもかかわらず、私たちは本質的に正しい方向に向かっていると信じています。この2つの統合はまだ手探りの段階だが、この道が次の強気市場の定番になることを妨げるものではない。
新しいものに対する好奇心と開放性を十分に保つことが、私たちの基本的な考え方です。歴史的に見ても、馬車から自動車への移行は、碑文や過去のNFTが示すように即座に解決された。偏見を持ちすぎると、チャンスを逃すだけだ。