出典:Quantum
本日Ars Technicaに掲載された見出し記事では、大規模な言語モデルが非言語的な推論が可能かどうかという問題を探求しており、「潜在空間」での処理がAIが厄介な論理問題を解決するのに役立つ可能性があるという研究者の発見を挙げています。何が起こっているのか、読んでみましょう。
大規模な言語モデルは、そのコンバーターアーキテクチャを使用して、クエリに応答するために必要な次の単語(つまり言語トークン)を効率的に予測することで、これまで大きな成功を収めてきました。しかし、抽象的な論理を必要とする複雑な推論タスクに関しては、この「言語空間」を通してすべてを説明することは、最新の「推論」モデルであっても問題につながる可能性があることを発見した研究者もいます。
研究者たちは現在、潜在的な論理解を完全に「潜在空間」(コンバータによって生成される言語に先立つ隠れた計算層)で計算するモデルを設計することによって、これらの問題を解決しようとしています。-潜在的な論理解が計算される。このアプローチは、大規模な言語モデルの推論力を大きく変えるものではありませんが、ある種の論理問題の精度を大幅に向上させ、新たな研究の興味深い方向性を示しています。
待って、どんな空間?
最新の推論モデル(ChatGPTのo1など)は、「思考の連鎖」を生成することで機能する傾向があります。これらのモデルでは、論理プロセスの各ステップは、モデルを通してフィードバックされる一連の自然言語単語トークンとして表現されます。
新しい論文の中で、Meta Foundation for Artificial Intelligence研究チームとカリフォルニア大学サンディエゴ校の研究者たちは、この自然言語と「単語トークン」への依存を、これらの推論モデルに対する「基本的な制約」として捉えています。というのも、推論タスクを成功裏に完了させるには、幅広い選択肢から正しい論理経路を見つけるために、特定のキートークンに対する複雑なプランニングが必要になることが多いからです。

上の図は、ステップごとに変換器を通過する標準モデルと、隠れた「潜在」状態を使用するCOCONUTモデルの違いを示しています。(出典:Training Large Scale(出典:Training Large Language Models to Reason in a Continuous Latent Space)
研究者らは、現在の思考連鎖モデルでは、単語トークンが「テキストの一貫性」と「流暢さ」のために使われることが多いと書いている。「流暢さ」と「実際の推論プロセスにはほとんど貢献しない」。その代わりに彼らは、「理想的には、大規模な言語モデルは、言語的な制約なしに自由に推論し、必要なときだけその結果を言語に変換する」ことを提案している。
この「理想」を実現するために、研究者らは、論文のタイトルが示すように、「連続的なポテンシャル空間で推論するように大規模言語モデルを訓練する」ための方法を説明している。この「ポテンシャル空間」は、基本的に、コンバーターが自然言語でその内部状態の人間が読めるバージョンを生成する前にモデルが含む、「隠れた」中間トークンの重みのセットで構成されています。
研究者たちのCOCONUTモデル(Continuous Thought Chain)では、これらの隠された状態は「潜在的思考」として符号化され、トレーニングやクエリ処理の際に、個々の記述ステップを論理シーケンスに置き換える。これにより、各ステップを自然言語に翻訳する必要がなくなり、「言語空間から推論を解放」することができる。
より広い視野
潜在空間での論理処理には、モデルの効率という点でも利点がありますが、より重要な発見は、そのようなモデルが「複数の潜在的な次のステップを同時に符号化できる」ということです。潜在空間」での論理処理では、一種の即時バックトラックが可能であり、研究者らはこれをグラフの幅優先探索の実行に例えている。貪欲な」処理で、論理的な選択肢を1つずつ完全に検索するのではなく、「貪欲な」処理で、論理的な選択肢を1つずつ完全に検索するのです。
研究者らは、この創発的な同時処理特性は、たとえモデルが明示的に訓練されていなくても、テストに反映されると書いている。「このモデルは、最初は正しい判断を下さないかもしれないが、何らかの暗黙の価値関数によって導かれ、連続的な思考の中で多くの可能性のある選択肢を維持し、推論を通じて徐々に誤った経路を排除することができる」と、研究者たちは書いている。

このグラフィックは、モデルがどのように異なるかを強調しています。ある種の論理的推論において、モデルが失敗する可能性のあるいくつかの方法を強調しています。(出典:Training Large Language Models to Reason in a Continuous Latent Space)
数学的推論(GSM8K)や一般的推論(ProntoQA)の比較的単純なテストでは、従来の連鎖思考モデルと比較して、このマルチパス推論はCOCONUTの精度をあまり向上させなかった。しかし、研究者たちは、このモデルが、複雑で入り組んだ論理条件のセット(例えば、「すべてのリンゴは果物であり、すべての果物は食べ物である」など)を含む、ランダムに生成されたProntoQAスタイルのクエリのセットで、比較的うまく動作することを発見した。
このようなタスクでは、標準的な思考連鎖推論モデルは、論理連鎖問題を解決しようとすると、推論の行き詰まりに陥ったり、完全に架空のルールを生成したりする傾向があります。以前の研究では、これらの連鎖思考モデルによって出力される「言語化された」論理ステップは、「実際には、共有された推論プロセスとは異なる根本的な推論プロセスを利用している可能性がある」ことも示されています。
この新しい研究は、大規模な言語モデルが、その根底にあるニューラルネットワークのレベルでどのように機能するのかを理解し、利用することを目的とした研究の増加に加わるものです。この種の研究ではまだ大きなブレークスルーは得られていませんが、研究者らは、この「思考の連続体」を最初からモデルに事前学習させることで、「より広範な推論シナリオにおいて、モデルがより効果的に汎化できるようになる」と考えています。