AIGCが知的コンテンツ生成の時代を切り開いたとすれば、AIエージェントはAIGCの能力を真に製品化する機会を持っている。
AIエージェントは、より具体的で万能な従業員のように、AIロボティクスの原始的な形態として説明されており、人間と同じように環境を観察し、決定を下し、自動的に行動を起こすことができます。
ビル・ゲイツはかつて、「AIエージェントをコントロールすることが本当の達成だ」と言いました。その時点で、もはや物理的にオンラインで情報を検索する必要はなくなる。"AI分野の権威ある専門家たちも、AIエージェントの将来に大きな期待を寄せている。マイクロソフトのサティア・ナデラ最高経営責任者(CEO)は、AIエージェントが人間とコンピュータのインタラクションの主要な手段になり、ユーザーのニーズを理解し、積極的にサービスを提供できるようになると予測している。呉恩達教授はまた、未来の仕事環境では、人間とAIエージェントはより緊密な方法で協力し、効率的な仕事モードを形成し、効率を向上させるだろうと予測した。
AIエージェントは単なるテクノロジーの産物ではなく、未来の私たちの生き方や働き方の中心にあるものです。
このことは、Web3とブロックチェーンが最初に議論され、「破壊的」という言葉がこの技術の可能性を表現するためによく使われた頃に遡る。過去数年を振り返ってみると、Web3はERC-20とゼロ知識証明から始まり、DeFi、DePIN、GameFiなどの他のドメインとの統合へと進化してきました。
Web3とAI、2つのホットなデジタル技術を組み合わせれば、1+1>2の効果があるのでしょうか?資金面でますます大きくなっているWeb3のAIプロジェクトは、業界に新たなユースケースのパラダイムをもたらし、新たな実需を生み出すことができるのだろうか?
AIエージェント:人間にとって理想的な知的アシスタント
AIエージェントの想像力はいったいどこにあるのでしょうか?インターネット上では、「大きな言語モデルはスネークを作り上げることしかできないが、AIエージェントはキング・オブ・グローリーを作り上げることができる」という高得点の答えが出回っている。大げさに聞こえるが、大げさではない。
エージェントは、中国では通常「知能体」と訳される。この概念は、「人工知能の父」と呼ばれるミンスキーが1986年に出版した『思考する社会』で提唱したもので、その中で彼は、社会における一部の個人は交渉の末に問題解決にたどり着くことができ、そのような個人はエージェントであると主張した。長年にわたり、エージェントは、マイクロソフトの編集アシスタントであるクリッピーからグーグルドキュメントの自動提案に至るまで、人間とコンピュータのインタラクションの基礎となってきた。 これらの初期のエージェントは、パーソナライズされたインタラクションの可能性を示したが、より複雑なタスクを処理する能力にはまだ限界があった。エージェントの真の可能性が実現されたのは、大規模言語モデル(LLM)の登場からでした。
今年5月、AI分野の権威ある学者であるアーネスト・ング教授は、米国で開催されたSequoia AIイベントでAIエージェントに関する講演を行い、彼のチームが行った一連の実験を披露しました。left;">AIにコードを書かせ、それを実行し、異なるLLMとワークフローからの結果を比較します。結果は以下の通りです:
GPT-3.5モデル:精度48%
GPT-4モデル:精度67%&n。4モデル:精度67%
GPT-3.5+エージェント:GPT-4モデルより高性能
GPT-4+エージェント:GPT-4モデルよりはるかに高性能
GPT-4+エージェント。エージェント:GPT-4モデルよりはるかに優れており、非常に良い
本当です。ほとんどの人は、ChatGPTのようなLLMを通常の方法で使用します。プロンプトを入力すると、大きなモデルがすぐに答えを生成し、自動的にエラーを認識して修正することなく、書き換えを削除します。
対照的に、AIエージェントのワークフローは次のようになります:
まず、LLMは記事のアウトラインを書き、必要に応じてインターネットでコンテンツを検索して調査・分析し、最初のドラフトを出力します。そして、その草稿を読み、どう最適化するかを考える。このように、何度も繰り返しながら、最終的には、厳密な論理と最も低いエラー率を持つ高品質の記事を出力する。
AIエージェントとLLMの違いは、LLMと人間の対話がプロンプトに基づいていることだとわかります。一方、AIエージェントはゴールを設定するだけで、そのゴールに対して独自に考え、行動することができる。与えられたタスクに基づいて計画の各ステップを詳細に分解し、外界からのフィードバックと自身の思考を頼りに、目標達成のためのプロンプトを独自に作成する。
このように、OpenAIはAIエージェントを脳としてのLLMによって駆動され、自律的に知覚を理解し、計画を立て、記憶し、複雑なタスクを自動化するツールを使用する能力を持つシステムと定義しています。
AIが使用されるツールからツールを使用できる主体へと変化するとき、それはAIエージェントになります。それこそが、AIエージェントが人間にとって最も望ましい知的アシスタントになり得る理由です。たとえば、AIエージェントは、ユーザーのオンライン対話の履歴に基づいて、ユーザーの興味、嗜好、日々の習慣を理解し、記憶し、ユーザーの意図を認識し、積極的に提案を行い、タスクを完了するために複数のアプリと連携することができます。
ゲイツ氏のビジョンのように、将来的には、異なるタスクのために異なるアプリに切り替える必要はなくなり、コンピュータや携帯電話にいつもの言葉でやりたいことを伝えるだけで、ユーザーが共有する意思のあるデータに基づいて、AIエージェントがパーソナライズされた応答を提供するようになるでしょう。
一人だけのユニコーン企業は現実になりつつある
AIエージェントは、企業がインテリジェントな人間とコンピュータのコラボレーションを構築するのにも役立ちます。より多くのビジネス活動がAIによって行われるようになり、人間はビジョンや戦略、クリティカルパスの決定だけに集中すればよくなります。
かつてOpenAIのCEOであるサム・アルトマンが説得力のあるインタビューで述べていたように、AIによって、私たちはユニコーン1頭の時代に突入しようとしている。とは、たったひとりで設立され、評価額が10億ドルに達する会社のことです。
夢のような話だが、AIエージェントの助けを借りれば、それは現実になりつつある。
テック系スタートアップを立ち上げるとしよう。従来のアプローチに従えば、ソフトウェア・エンジニア、プロダクト・マネージャー、デザイナー、マーケティング担当者、営業担当者、財務担当者を雇う必要があります。
AIエージェントを使えば、人を雇う必要すらなくなるかもしれない。
ソフトウェア・エンジニアの代わりに、今年大ブレイクしたAIソフトウェア・エンジニアで、フロントエンドとバックエンドの仕事をすべてやってくれるデヴィンを使うかな。
コグニション・ラボが開発したDevinは、「世界初のAIソフトウェア・エンジニア」と謳われている。ソフトウェア開発作業全体を独自にこなし、問題を独自に分析し、決断を下し、コードを書き、エラーを修正する、これらすべてを自律的に行うことができる。Devinはわずか6ヶ月で1億9600万ドルの融資を受け、その評価額は急速に数十億ドルにまで上昇した。投資家にはFounders Fund、Khosla Ventures、その他有名なベンチャーキャピタルが名を連ねている。
Devinはまだ公開されていないが、最近Web2シーンで爆発的にヒットしたもうひとつの製品であるCursorの可能性を垣間見ることができる。シンプルなアイデアを数分で機能的なコードに変えてくれる。プログラミング経験のない8歳の子供が、実際にCursorを使ってコード作業を行い、ウェブサイトを構築したという報告もあります。
プロダクトマネージャーや財務担当者の代わりなら、文書の整理や分析をすべてやってくれるHebbiaを選ぶだろう。
オンプレミスの文書検索に特化したGleanとは異なり、Hebbia MatrixはエンタープライズグレードのAIエージェントプラットフォームであり、ユーザーが複数のAIモデルの助けを借りてデータや文書を効率的に抽出、構造化、分析し、ビジネスの生産性を向上させることを支援する。印象的なことに、Matrixは一度に何百万ものドキュメントを扱うことができます。
Hebbiaは7月に1億3000万ドルのシリーズBをクローズしており、a16zが主導し、グーグル・ベンチャーズ、ピーター・ティール、その他の著名な投資家が参加している。
ソーシャルメディア運用やデザイナーの代わりに、私ならコンテンツ生成をしてくれるJasper AIを選ぶだろう。
ジャスパーAIは、クリエイター、マーケティング担当者、企業がコンテンツ生成プロセスを合理化し、生産性とクリエイティブ効率を向上させるために設計されたAIエージェントのライティングアシスタントです。ブログ記事、ソーシャルメディア投稿、広告コピー、商品説明文など、ユーザーからリクエストされたスタイルに基づいて幅広い種類のコンテンツを生成することができます。Jasper AIはまた、テキストコンテンツに視覚的な補助を提供するために、ユーザーの説明に基づいて画像を生成します。
ジャスパーAIは1億2500万ドルの資金提供を受け、2022年の評価額は15億ドルに達した。統計によると、Jasper AIはユーザーが5億語以上の単語を生成するのに役立っており、最も広く使われているAIライティングツールの1つとなっています。="text-align: left;">アシスタントの代わりにMultiOnを選ぶとしたら、日々のタスクを管理し、スケジュールを整理し、リマインダーを設定し、出張の計画を立て、ホテルの予約を自動化し、オンラインで車の手配を自動化することだろう。
MultiOnは自動化されたウェブタスクAIエージェントで、オンラインショッピングや予約などの個人的なタスクを完了させて個人の効率を向上させたり、日々のルーチンを効率化して生産性を高めたりするなど、あらゆるデジタル環境で自律的にタスクを実行する手助けをする。
研究者の代わりに、私はNVIDIAのCEOが毎日使っているPerplexityを選ぶでしょう。PerplexityはAI検索エンジンです。
PerplexityはAI検索エンジンです。
Perplexityは、情報を検索するプロセスを効率化し、執筆時の効率を向上させる学生や研究者、マーケティング戦略をサポートする信頼性の高いデータを取得するマーケティング担当者など、さまざまなユーザーグループに利用することができる。
上記は想像に過ぎず、これらのAIエージェントの真の能力は、あらゆる業界の優秀な人材に取って代わるにはまだ十分ではない。Logenic AIの共同設立者である李博杰氏が言ったように、現在、LLMの能力はエントリー・レベルに過ぎず、エキスパート・レベルには程遠く、現段階のAIエージェントは、仕事は速いが信頼性の低い従業員のようなものだ。
しかし、これらのAIエージェントは、それぞれの専門分野を持ち、既存のユーザーが多様なシナリオで効率と利便性を向上させるのに役立っている。
ハイテク企業だけでなく、あらゆる業界がAIエージェントの波の恩恵を受けることができます。教育分野では、AIエージェントは生徒の学習進度、興味、能力に基づいてパーソナライズされた学習リソースや個別指導を提供することができます。金融分野では、AIエージェントはユーザーの個人的な財務管理、投資アドバイス、さらには株価動向の予測を支援することができます。ヘルスケア分野では、AIエージェントは病気の診断や治療計画の策定で医師を支援することができます。電子商取引の分野では、AIエージェントは、自然言語処理と機械学習技術を通じて、ユーザーからの問い合わせに自動的に回答し、注文の問題や返品要求に対処し、顧客サービスの効率を向上させるインテリジェントな顧客サービスとしても利用できる。
マルチエージェント:AIエージェントの次のステップ
前節のユニコーン企業1社のビジョンでは、単一のAIエージェントは、複雑なタスクを処理する上で限界に直面し、実用的なニーズを満たすことが難しくなります。複数のAIエージェントを使用する場合、これらのAIエージェントは異種のLLMに基づいているため、集団的な意思決定は困難であり、その能力にも限界があるため、人間がこれらの独立したAIエージェント間のディスパッチャとして機能し、異なるアプリケーションシナリオに対応するこれらのAIエージェントの作業を調整する必要がある。これが、マルチ・エージェント・フレームワークの台頭につながっています。
複雑な問題では、複数のソースからの知識やスキルの統合が必要になることが多く、単一のAIエージェントでは対処が困難です。異なる能力を持つAIエージェントを有機的に組み合わせることで、マルチエージェントシステムは、AIエージェントがそれぞれの長所を活かし、互いの短所を補完して、複雑な問題をより効果的に解決することを可能にします。
これは、私たちの実際のワークフローや組織構造と非常によく似ています。リーダーがタスクを割り当て、異なる能力を持つ人々が異なるタスクを担当し、各プロセスの結果が次のプロセスに引き継がれ、最終的に最終タスクにつながります。
実現という点では、下位のAIエージェントはそれぞれのタスクを実行し、上位のAIエージェントはタスクを割り当て、その完了を監視する。
マルチエージェントは、人間の意思決定プロセスをシミュレートすることもできます。私たちが問題を抱えたときに他の人に相談するように、複数のAIエージェントは集団的な意思決定行動をシミュレートして、より良い情報を提供することができます。
基本的な会話能力を持ち、受信したメッセージに返信を生成する、さまざまな役割を持つAIエージェントを作成することができます。これらのAIエージェントは基本的な対話機能を持ち、受信したメッセージに基づいて応答を生成することができます。
GroupChatを通じて複数のAIエージェントによるグループチャット環境を作成し、管理者の役割を持つAIエージェントが他のAIエージェントのチャット、発言者の順番、終了などを管理します。
GroupChatを通じて複数のAIエージェントによるグループチャット環境を作成します。
これを1つのユニコーン企業のビジョンに当てはめると、マルチエージェントアーキテクチャで複数の異なる役割を作成できます。プロジェクトマネージャー、プログラマー、スーパーバイザーなどです。我々が達成したいことを彼らに伝え、彼らに好きなことをさせ、我々はただ聞き役に徹し、問題があると思ったり、彼らが何か間違ったことをしていると思えば、我々が満足するまでそれを変更させる。
単一のAIエージェントと比較して、マルチエージェントは以下を可能にします:
スケーラビリティ。スケーラビリティ:AIエージェントの数を増やすことで、より大規模な問題に対処し、それぞれがタスクの一部を処理することで、需要の増加に合わせてシステムを拡張することができます。
並列処理:並列処理の自然なサポートにより、複数のAIエージェントが同時に問題の異なる部分に取り組むことができ、問題解決を加速します。
意思決定の改善:それぞれが独自の視点と専門知識を持つ複数のAIエージェントからの洞察を集約することで、意思決定を強化します。
AIテクノロジーが進歩し続けるにつれて、マルチエージェント・フレームワークがより多くの産業でより大きな役割を果たし、あらゆる種類の新しいAI搭載ソリューションの開発を促進することが考えられます。
AIエージェントの風、ウェブに吹く3
実験室から飛び出そう、AIエージェントとマルチエージェントの道。
研究室を飛び出して、AIエージェントとマルチエージェントの道は長い。
マルチエージェントはさておき、最も先進的な単一のAIエージェントでさえ、物理レベルで必要とする演算リソースと計算能力の量には明確な上限があり、無限に拡張することは不可能です。ひとたび非常に複雑で計算量の多いタスクに直面すれば、AI エージェントは間違いなく計算ボトルネックに悩まされ、そのパフォーマンスは大幅に低下します。
さらに、AIエージェントとマルチエージェントシステムは本質的に集中型アーキテクチャモデルであり、単一故障のリスクが高い。さらに、クローズドソースのビッグモデルに基づくOpenAI、マイクロソフト、グーグルなどの独占的なビジネスモデルは、独立した単一エージェントのAIエージェントの新興企業の存続を脅かす深刻な脅威であり、AIエージェントが膨大な民間企業データをうまく活用して、より賢く、より効率的にすることは不可能です。AIエージェント間の民主化されたコラボレーション環境が急務です。真に価値のあるAIエージェントがより幅広いニーズに応え、社会により大きな価値を生み出すことができるように、AIエージェント間の民主化されたコラボレーション環境が緊急に必要とされている。
最後に、AIエージェントはLLMよりも業界に近いものの、その開発はLLMを基盤としており、現在の大規模モデルトラックは、高い技術閾値、高い設備投資、未成熟なビジネスモデルによって特徴付けられ、AIエージェントが更新と反復を続けるための資金を確保することを困難にしています。
マルチエージェントパラダイムは、Web3がAIを支援するための素晴らしい視点であり、すでに多くのWeb3開発チームがこれらの分野のソリューションを提供するための研究開発に投資しています。
AIエージェントやマルチエージェントシステムは、複雑な意思決定や処理タスクを実行するために、大量の計算資源を必要とすることが多い。web3は、ブロックチェーンや分散化技術を通じて分散型演算市場の構築を可能にし、演算資源をより公平かつ効率的にグローバルに分散して利用できるようにする。Akash、Nosana、Aethir、IO.netなどのWeb3プロジェクトは、AIエージェントの意思決定や推論にコンピューティングパワーを提供することができる。
従来のAIシステムは中央で管理される傾向があり、単一障害点とAIエージェントのデータプライバシーの問題につながります。 Web3の分散化された性質は、より分散化された自律的なマルチエージェントシステムを可能にし、各AIエージェントは異なるノード上で独立して実行され、自律的にユーザーの要求を実行し、AIエージェントのパフォーマンスを向上させます。各AIエージェントは異なるノード上で独立して動作し、ユーザーの要求を自律的に実行できるため、堅牢性とセキュリティが強化されます。PoS、DPoS、および誓約者とプリンシパルにインセンティブとペナルティを設定するその他のメカニズムを通じて、単一のAIエージェントまたはマルチエージェントシステムの民主化を促進することができます。
この点に関して、GaiaNet、Theoriq、PIN AI、HajimeAIは非常に最先端の試みを行っています。
TheoriqはWeb3のためのAIプロジェクトで、エージェントプロトコルによってWeb3のためのAIを確立することを目指しています。Theoriqは "Web3のためのAI "を提供するプロジェクトであり、AIエージェントのための呼び出しと経済システムを確立し、Web3開発と多くの機能的なシナリオを普及させるAgentic Protocolを通して、Web3のdAppsのための検証可能なモデル推論機能を提供することを目的としています。
GaiaNetは、AIエージェントを作成・展開するためのノードベースの環境であり、中央集権的なOpenAI GPTストアに対抗するものとして、専門家とユーザーの知的財産とデータプライバシーを保護します。
GaiaNetは、AIエージェントを作成・展開するためのノードベースの環境であり、中央集権的なOpenAI GPTストアに対抗するものとして、専門家とユーザーの知的財産とデータプライバシーを保護します。style="text-align: "left;">一方、HajimeAIは、実世界の要件におけるAIエージェントのワークフローを確立し、インテリジェントに意図そのものを自動化するために、2つの基盤の上に構築されており、PIN AIが言及した「AIインテリジェンスのパーソナライズ化」と呼応している。
一方、Modulus LabsとORA Protocolは、それぞれAIエージェントのためのzkMLとopMLというアルゴリズムの方向で前進しています。
最後に、AIエージェントおよびマルチエージェントシステムの開発と反復には、しばしば多額の資金が必要です。
SpectralとHajimeAIの両社は、オンチェーンAIエージェント資産の発行をサポートする製品アイデアを提案しています。IAO(Initial Agent Offering)を通じてトークンを発行することで、AIエージェントはDAOガバナンスの一部になりながら、投資家から直接資金を受け取ることができます。AIエージェントはIAO(Initial Agent Offering)を通じて投資家から直接資金を受け取ることができ、同時にDAOガバナンスの一員となることで、投資家にプロジェクトの開発に参加し、将来の収益を共有する機会を提供することができます。HajimeAIのBenchmark DAOは、クラウドファンディングとトークンのインセンティブを通じて、分散型AIエージェントのスコアリングとAIエージェントの資産発行を有機的に組み合わせ、AIエージェントの資金調達とWeb3に依存したコールドスタートの閉じたループを作り出すことを望んでおり、これも比較的斬新な試みである。
AIのパンドラの箱は開かれ、その中にいる誰もが興奮と混乱の両方を持っている。今や、あらゆる産業がPPT融資の時代ではなくなっており、どんなに最先端の技術であっても、その価値を実現する唯一の方法は、その地に着陸させることである。 AIエージェントの未来は長いマラソンになる運命にあり、Web3は暗闇の中のレースから取り残されないようにしている。