出典: Empower Labs
技術進歩の年代記において、革命的なテクノロジーはしばしば独立して登場し、それぞれが変革の時代をリードしてきました。そして、2つの革命的なテクノロジーが出会うとき、その衝突はしばしば指数関数的なインパクトをもたらします。今日、私たちは、人工知能と暗号技術という同じく破壊的な2つの新技術が、手を取り合って主役の座に着こうとしている歴史的瞬間に立っている。
私たちは、AIの課題の多くが暗号によって解決されることを期待しています。私たちは、AIエージェントが暗号の大量採用を促進する自律的な経済ネットワークを構築することを期待し、AIが既存の暗号シナリオの開発を加速させることを期待しています。また、AIが既存の暗号シナリオの開発を加速させることも期待しています。数え切れないほどの目がこれに注がれており、狂ったように大量の資金が流入し、あらゆる流行語のように、イノベーションに対する人々の願望、未来のビジョンが凝集していますが、野心と欲望を抑制することも困難です。
このような話題の中、しかし、私たちは最も基本的な疑問についてほとんど知りません。大規模な言語モデルを備えたエージェントは、暗号化ツールを使用する実際の能力を持っているのか?暗号化タスクにおいて、モデルによってどの程度の違いがあるのか?
これらの質問に対する答えは、AIと暗号の相互影響を決定するものであり、この交差点における製品の方向性と技術ルートを選択する上で非常に重要なものとなります。これらの疑問を探るため、私は大規模な言語モデルを評価する実験を行った。暗号領域における彼らの知識と能力を評価することで、AIの暗号導入レベルを測定し、AIと暗号の融合の可能性と課題を判断する。
まず結論から
大規模言語モデルは、暗号とブロックチェーンの基礎に秀でており、暗号エコシステムをよく理解しているが、数学的計算と複雑なビジネスロジック分析では劣っている。モデルは秘密鍵と基本的なウォレット操作については十分な基礎を持っているが、秘密鍵をクラウドに保管する方法については深刻な課題に直面している。多くのモデルは、単純なシナリオでは有効なスマートコントラクトコードを生成できますが、コントラクトの監査や複雑なコントラクトの作成といった難しいタスクを独立して実行することはできません。
商用クローズドソースモデルが全体的に大きくリードしており、オープンソース陣営ではLlama 3.1-405Bだけが突出しており、パラメータサイズが小さいオープンソースモデルはすべて失敗しています。しかし、可能性はあり、キューワードガイダンス、思考連鎖推論、サンプルレス学習技術により、すべてのモデルのパフォーマンスは大幅に改善され、主要なモデルは、いくつかの垂直アプリケーションシナリオにおいて、より技術的に実現可能になっています。
実験の詳細
評価のために、以下を含む18の代表的な言語モデルが選ばれました:
これらのモデルは、3.8Bから405Bまで100倍以上のパラメトリック量を持つ、主流の商用モデルと人気のあるオープンソースモデルをカバーしています。また、暗号と数学の密接な関係から、数学的に最適化された2つのモデルも実験用に特別に選ばれました。
また、実験がカバーする知識領域には、暗号、ブロックチェーンの基礎、秘密鍵とウォレット操作、スマートコントラクト、DAOとガバナンス、コンセンサスと経済モデル、Dapp/DeFi/NFT、オンチェーンデータ分析が含まれる。各領域は、モデルの知識ベースをテストするだけでなく、シミュレートされたタスクを通じてアプリケーションシナリオでのパフォーマンスもテストする、一連の簡単から難しい問題とタスクで構成されています。
タスクは多様な情報源から設計され、一部は暗号分野の複数の専門家からインプットされ、一部はタスクが正確で挑戦的であることを保証するために手動で校正されたAI支援生成によって設計されました。タスクの一部には、標準化された自動テストと採点を容易にするため、より単純な形式の多肢選択問題が使用された。テストの他の部分では、より複雑な問題形式が使用され、テストプロセスはプログラムされた自動化+人間+AIの組み合わせによって実施された。すべてのテストタスクは、ゼロサンプル推論アプローチを使用して評価され、例題、思考指導、指示プロンプトは提供されませんでした。
実験自体がまだ大まかに設計されており、学術的な厳密さが十分でないため、テストに使用された質問とタスクは暗号領域を包括的にカバーするには程遠く、テストのフレームワークも成熟していない。したがって、この記事では具体的な実験データは記載せず、実験から得られたいくつかの洞察を共有することに重点を置いている。
知識/概念
評価プロセスにおいて、大規模言語モデルは、暗号アルゴリズム、ブロックチェーンの基本、およびDeFiアプリケーションなど、さまざまなドメインの基本をテストする際に良好なパフォーマンスを示しました。たとえば、データ可用性の概念についての理解を問うクイズでは、すべてのモデルが正確な回答をしました。イーサネットのトランザクション構造に関するモデルの知識を問う設問は、モデルによって解答の細部に若干のばらつきはあるものの、主要な情報に関してはおおむね正解だった。概念を問う多肢選択問題はさらに難易度が低く、ほぼすべてのモデルが95%以上の正解率を示した。
概念に関する問題は、大きなモデルにとってはまったく難しくない。
計算/ビジネスロジック
しかし、具体的な計算が必要な問題になると、状況は逆転します。RSAアルゴリズムの単純な計算は、ほとんどのモデルを困難な立場に追い込みます。これは理解しがたいことではない。大規模な言語モデルは、数学的概念の本質を深く理解するのではなく、主に学習データのパターンを認識し、再現することによって動作する。この限界は、モジュロ演算や指数演算のような抽象的な数学的概念を扱う場合に特に顕著となる。暗号の分野が数学と密接に関連していることを考えると、これは暗号関連の数学的計算のモデルに直接頼ることは信頼できないということを意味します。
大規模な言語モデルは、他の計算トピックでも同じように性能が低い。たとえば、AMMの不変損失を計算するという単純な問題では、複雑な数学的演算を伴わないにもかかわらず、正しい答えを出したのは18モデル中4モデルだけでした。また、ブロックの確率を計算するというもっと基本的な問題では、すべてのモデルが不正解だった。驚くべきことに、この問題はすべてのモデルにとって難しく、正解したモデルは皆無だった。これは、大規模言語モデルが正確な計算において不十分であることを露呈しただけでなく、ビジネスロジック分析において大きな問題を抱えていることを反映している。数学的最適化モデルでさえ、計算問題で明確な優位性を示すことができず、そのパフォーマンスは期待外れだったことは注目に値する。
しかし、数学的計算の問題は解決できないわけではない。結果を直接計算する代わりに、対応するPythonコードを与えるようLLMに求めることで少し手を加えると、正答率は劇的に向上する。例として、前述のRSA計算のためにほとんどのモデルが与えたPythonコードは正常に実行でき、正しい結果を出すことができます。実際の生産環境では、事前に定義されたアルゴリズムコードを提供することで、LLM自身の計算をバイパスすることさえ可能であり、これは人間がそのようなタスクを処理する方法に似ている。ビジネスロジックのレベルでは、よく設計されたキューワードでガイドすることによって、モデルのパフォーマンスを効果的に向上させることもできます。
秘密鍵管理とウォレット操作
エージェントが暗号通貨を採用する最初のシナリオは何かと聞かれたら、私の答えは支払いです。暗号通貨は、AIにとってほとんどネイティブな通貨形態とみなすことができます。エージェントが伝統的な金融システムで直面する多くの障害と比較すると、暗号通貨を使用してデジタルIDを装備し、暗号ウォレットを通じて資金を管理することは、自然な選択と言える。したがって、秘密鍵の生成と管理、ウォレットのさまざまな操作は、エージェントが自律的に暗号ネットワークを使用できるようになるために必要な最も基本的なスキルを構成する。
安全な秘密鍵生成の核心は高品質の乱数にあり、これは明らかに大規模な言語モデルにはない能力です。しかし、モデルは秘密鍵の安全性を十分に認識しており、秘密鍵の生成を依頼された場合、大半のモデルはコード(Pythonの関連ライブラリなど)を使用して、ユーザーが自分で秘密鍵を生成できるようにガイドすることを選択します。秘密鍵を直接渡すモデルがあったとしても、それはデモンストレーションのためであり、直接使用できる安全な秘密鍵ではないことを明示している。この点では、どの大きなモデルも満足のいく性能を示している。
一方、秘密鍵管理は、モデルの能力不足というよりも、技術的なアーキテクチャに内在する制限に起因する多くの課題に直面しています。ローカルに配備されたモデルを使用する場合、生成される秘密鍵は比較的安全だと考えることができる。しかし、商用クラウドベースのモデルを使用する場合、秘密鍵は生成の瞬間にモデルのオペレータに公開されると仮定しなければならない。しかし、独自に活動することを目的とするエージェントの場合、秘密鍵の使用許可を持つことは必須であり、秘密鍵はユーザーだけのローカルなものではありえない。この場合、秘密鍵のセキュリティを保証するには、モデル自体に依存するだけではもはや十分ではなく、信頼された実行環境やHSMのような追加のセキュリティサービスを導入する必要があります。
テストにおけるさまざまなモデルは、エージェントがすでに秘密鍵を安全に保持しているという仮定に基づいて、さまざまな基本操作を実行する際に優れた能力を示しました。出力ステップやコードにはバグが多いものの、適切なエンジニアリング・アーキテクチャがあれば、大部分は解決可能です。技術的な観点からは、エージェントが基本的なウォレット操作を自律的に実行することに、もはやそれほど多くの障壁はないと言ってよいでしょう。
スマートコントラクト
スマートコントラクトを理解し、利用し、記述し、リスクを特定する能力は、AIエージェントがオンチェーンの世界で複雑なタスクを実行するための鍵であり、したがって実験の重要なテスト領域です。ビッグ・ランゲージ・モデリングは、この分野で大きな可能性を示しているが、いくつかの明確な問題も露呈している。
テストに参加したほぼすべてのモデルは、基礎となる契約の概念に正しく答え、単純なバグを特定することができました。契約ガスの最適化に関しては、ほとんどのモデルは、主要な最適化ポイントを特定し、最適化がもたらす可能性のある競合を分析することができました。しかし、深いビジネスロジックになると、大規模モデルの限界が見えてきます。
トークンの権利確定契約を例にとると、すべてのモデルが契約機能を正しく理解し、ほとんどのモデルが低リスクから中リスクの脆弱性をいくつか特定しました。しかし、特別な状況下で資金の部分的なロックアウトにつながる可能性のある、ビジネスロジックに隠された高リスクの脆弱性を自律的に発見できたモデルはありませんでした。実際の契約を使った複数のテストでは、どのモデルもほぼ同じパフォーマンスを示しました。
このことは、大きなモデルの契約に対する理解が形式的なレベルにとどまっており、深いビジネスロジックに対する理解が欠けていることを示唆しています。しかし、追加のヒントを提供した後、いくつかのモデルは最終的に、上記の契約におけるより深い隠れた脆弱性を独自に特定することができました。このパフォーマンスから、優れたエンジニアリングのサポートがあれば、大規模なモデルは基本的にスマートコントラクト空間において副操縦士として機能することができると判断する。しかし、コントラクト監査などの重要なタスクを独立して引き受けるには、まだ長い道のりがある。
一つ注意すべき点は、実験におけるコード関連のタスクは、主に単純なロジックと2000行未満のコードを持つコントラクトを対象としているということです。微調整や複雑なキューワードエンジニアリングを伴わない、より大規模で複雑なプロジェクトについては、現在のモデルが効果的に処理できる範囲を明らかに超えており、テストに含まれていないと思います。加えて、このテストはSolidityのみを対象としており、RustやMoveといった他のスマートコントラクト言語は含まれていません。
上記のテストに加え、実験ではDeFiシナリオ、DAOとそのガバナンス、オンチェーンデータ分析、コンセンサスメカニズム設計、トークノミクスなど、さまざまな側面が取り上げられました。ビッグ・ランゲージ・モデルは、これらすべての分野で能力を発揮した。テストの多くがまだ進行中であり、テスト方法論とフレームワークが最適化されつつあることを考慮し、本稿では当分の間、これらの分野を深く掘り下げることはしない。
モデルの違い
レビューしたすべての大きな言語モデルの中で、GPT-4oとClaude 3.5 Sonnetは、他の分野でも優れたパフォーマンスを維持しており、誰もが認めるリーダーです。基本的な質問に直面したとき、両モデルはほぼ常に正確な答えを提供することができ、複雑なシナリオでは、深く、よく議論された洞察を提供することができた。大型モデルが不得意とする計算タスクにおいても、高い成功率を示しているが、もちろんこの「高い」成功率は相対的なものであり、まだ本番環境での安定した出力のレベルには達していない。
オープンソースモデル陣営では、Llama 3.1-405Bは、その大きなパラメータサイズと高度なモデリングアルゴリズムにより、同業他社を大きく引き離しています。パラメータサイズが小さい他のオープンソースモデルでは、モデル間に大きな性能差は示されていません。スコアの高さには若干のばらつきがあるものの、全体としてはどれも合格ラインから大きく離れている。
したがって、現在暗号関連のAIアプリケーションを構築しているのであれば、パラメータサイズが小から中のこれらのモデルは正しい選択とは言えません。
我々のレビューでは、特に2つのモデルが際立っています。1つ目は、マイクロソフト社のPhi-3 3.8Bモデルで、この実験に参加したモデルの中で最も小さいモデルですが、8B-12Bモデルに匹敵するレベルの性能を、半分以下のパラメータ数で達成しており、特定のクラスの問題ではより優れた性能さえ発揮しています。この結果は、パラメータサイズの増加だけに頼るのではなく、モデルアーキテクチャの最適化とトレーニング戦略の重要性を浮き彫りにしています。
CohereのCommand-Rモデルは、意外な「ダークホース」でした。裏を返せば、Command-Rは他のモデルよりもあまり知られていないということですが、Cohereは2B市場に注力している大きなモデリング会社であり、エージェント開発などの分野と大いに関係があると思います。エージェント開発などはまだフィット感がかなりあるので、あえてテストレンジに入れました。しかし、35Bのパラメーターを持つCommand-Rは、ほとんどのテストで最下位にあり、多くの10B以下のモデルを凌駕していた。
この結果は疑問を投げかけるものだ:Command-Rは検索を強化した生成に焦点を当ててリリースされ、通常のベンチマークスコアさえ公表していなかった。これは、特定のシナリオにおいてのみその潜在能力をフルに発揮できる「特別なキー」であることを意味しているのでしょうか?
実験的限界
この一連のテストでは、暗号空間でAIができることについて、初期の洞察を得ることができました。もちろん、これらのテストはプロフェッショナルにはほど遠い。データセットのカバレッジは適切とは言い難く、回答の定量化は比較的粗雑であり、洗練されたより正確な採点メカニズムが欠如している。これらすべてが評価結果の精度に影響し、一部のモデルのパフォーマンスの過小評価につながる可能性も排除できない。
テスト方法の面では、実験ではゼロショット学習のみを使用し、思考の連鎖や少ないサンプル数、モデルの大きな可能性を触発する他の方法については探求していません。モデルのパラメータに関しては、実験では標準的なモデルのパラメータを使用し、異なるパラメータ設定がモデルのパフォーマンスに与える影響については検証していない。このような全体的に単一のテスト方法では、モデルの可能性を十分に評価する能力が制限され、特定の条件下でのモデル性能の違いを十分に探ることができません。
比較的初歩的なテスト条件にもかかわらず、これらの実験では、アプリケーションを構築する開発者に情報を提供するための多くの貴重な洞察を得ることができました。
暗号空間には独自のベンチマークが必要
AI空間では、ベンチマークが重要な役割を果たします。現代のディープラーニング技術の急速な発展は、フェイフェイ・リー教授が2012年にコンピュータビジョン分野の標準化ベンチマークとデータセットであるImageNETを完成させたことに起因しています。
評価の統一基準を提供することで、ベンチマークは開発者に明確な目標と参照点を提供するだけでなく、業界全体の技術進歩を促進します。大規模な言語モデルの新しいリリースごとに、さまざまなベンチマークでの結果が強調されるのはこのためです。これらの結果は、モデルの能力を示す「共通語」となり、研究者がブレークスルーを特定し、開発者が特定のタスクに最適なモデルを選択し、ユーザーが客観的なデータに基づいて情報に基づいた選択を行うことを可能にします。さらに重要なことに、ベンチマークはしばしばAIアプリケーションの将来の方向性を示し、リソース投資や研究の焦点を導きます。
AIと暗号の交差点が大きな可能性を秘めていると考えるのであれば、暗号領域専用のベンチマークを作成することが緊急の課題となります。ベンチマークの作成は、AIと暗号の2つの分野をつなぐ重要な架け橋となり、イノベーションを促進し、将来のアプリケーションに明確なガイドラインを提供することができます。
しかし、他分野の成熟したベンチマークと比較すると、暗号におけるベンチマークの構築は独自の課題に直面しています。暗号技術は急速に進化しており、業界の知識体系はまだ固まっておらず、複数の中心的な方向性においてコンセンサスが得られていません。学際的な分野である暗号は、暗号技術、分散システム、経済学などを包含しており、その複雑さは単一の分野をはるかに超えている。さらに難しいのは、暗号ベンチマークは知識を評価するだけでなく、AIが暗号を実際に使用する能力も検証する必要があるため、新しい評価アーキテクチャを設計する必要があることだ。関連するデータセットがないことが、さらに難易度を高めています。
このタスクの複雑さと重要性は、一個人やチームではできないほどです。ユーザー、開発者、暗号学者、暗号研究者から、より学際的な分野の研究者まで、多くの人の知恵を結集する必要があり、コミュニティの幅広い参加とコンセンサスに依存しています。このため、暗号ベンチマークは、単に技術的な練習としてではなく、この新興技術をどのように理解するかについての深い考察として、より広く議論される必要があります。
ここまで述べてきたが、議論はまだ終わっていない。次の投稿では、暗号におけるAIベンチマークの構築に関する具体的なアイデアと課題について掘り下げる。実験もまだ継続中で、テストモデルの最適化、データセットの充実、評価フレームワークの改良、自動テストエンジニアリングの改善を継続的に行っている。オープン・コラボレーションのコンセプトに従い、データセット、実験結果、評価フレームワーク、自動テスト・コードなど、すべての関連リソースは、将来的にパブリック・リソースとしてオープンソース化される予定である。