출처: 퀀텀
오늘 아르스 테크니카의 헤드라인 기사는 대규모 언어 모델이 비언어적 추론이 가능한지에 대한 질문을 탐구하며 '잠재 공간'에서 처리하면 AI가 까다로운 논리 문제를 해결할 수 있다는 연구자들의 발견을 인용했습니다. 무슨 일이 일어나고 있는지 계속 읽어보겠습니다.
대규모 언어 모델은 컨버터 아키텍처를 사용하여 쿼리에 응답하는 데 필요한 다음 단어(즉, 언어 토큰)를 효율적으로 예측함으로써 지금까지 큰 성공을 거두었습니다. 그러나 추상적인 논리가 필요한 복잡한 추론 작업의 경우, 일부 연구자들은 이러한 '언어 공간'을 통해 모든 것을 설명하는 것이 최신 '추론' 모델에서도 문제를 일으킬 수 있다는 사실을 발견했습니다.
연구자들은 이제 이러한 문제를 해결하기 위해 변환기에 의해 생성된 언어 이전의 숨겨진 계산 계층인 '잠재 공간'에서만 잠재적인 논리 솔루션을 계산하는 모델을 설계하고 있습니다. -잠재 공간에서 잠재적인 논리 솔루션을 계산합니다. 이 접근 방식이 대규모 언어 모델의 추론 능력에 큰 변화를 가져오지는 못하지만, 특정 유형의 논리 문제의 정확도를 크게 향상시키고 새로운 연구 방향을 제시합니다.
잠깐, 무슨 공간?
현대 추론 모델(예: ChatGPT의 o1)은 '생각의 연쇄'를 생성하는 방식으로 작동하는 경향이 있습니다. 이러한 모델에서 논리적 프로세스의 각 단계는 모델을 통해 피드백되는 일련의 자연어 단어 토큰으로 표현됩니다.
메타 인공지능 재단 연구팀과 샌디에이고 캘리포니아 대학교의 연구원들은 새로운 논문에서 자연어와 '단어 토큰'에 대한 이러한 의존성을 이러한 추론 모델의 '근본적인 제약'으로 보고 있습니다. 추론 작업을 성공적으로 완료하려면 다양한 옵션 중에서 올바른 논리적 경로를 찾기 위해 특정 핵심 토큰에 대한 복잡한 계획이 필요한 경우가 많기 때문입니다.
이미지 src="https://img.jinse.cn/7333100_image3.png">
위 그림은 모든 단계에서 변환기를 통과하는 표준 모델과 숨겨진 "잠재" 상태를 사용하는 COCONUT 모델의 차이점을 보여줍니다. (출처: 대규모 훈련 (출처: 연속적인 잠재 공간에서 추론하기 위한 대규모 언어 모델 훈련)
연구자들은 현재의 사고 체인 모델에서 단어 토큰이 '텍스트 일관성'과 '유창성'에 자주 사용된다고 말합니다. "유창성"과 "실제 추론 과정에는 거의 기여하지 않는다"고 말합니다. 대신 "대규모 언어 모델은 언어적 제약 없이 자유롭게 추론한 다음 필요할 때만 그 결과를 언어로 번역하는 것이 이상적"이라고 제안합니다.
이 '이상'을 달성하기 위해 연구진은 논문 제목에서 알 수 있듯이 "대규모 언어 모델이 연속적인 잠재 공간에서 추론하도록 훈련"하는 방법을 설명합니다. '잠재 공간'은 기본적으로 변환기가 자연어로 사람이 읽을 수 있는 버전의 내부 상태를 생성하기 전에 모델에 포함된 '숨겨진' 중간 토큰 가중치 집합으로 구성됩니다.
연구진의 COCONUT 모델(연속적 사고 체인)에서 이러한 숨겨진 상태는 쿼리를 학습하고 처리할 때 개별적으로 작성된 단계를 논리적 시퀀스로 대체하는 "잠재적 사고"로 인코딩됩니다. 이렇게 하면 각 단계를 자연어로 번역할 필요가 없고 "언어적 공간에서 추론이 자유로워져" "연속적 사고"라고 부르는 최적화된 추론 경로가 생성된다고 연구진은 설명합니다.
더 넓은 지평
잠재 공간에서의 논리는 모델 효율성 측면에서 몇 가지 이점이 있지만, 더 중요한 발견은 이러한 모델이 "여러 잠재적 다음 단계를 동시에 인코딩"할 수 있다는 것입니다. '잠재 공간'에서 논리를 처리하면 일종의 즉각적인 역추적이 가능한데, 연구진은 이를 그래프에서 폭 우선 검색을 수행하는 것과 비슷하다고 비유합니다. 각 논리적 옵션을 하나씩 완전히 검색하는 대신 "탐욕스러운" 프로세스를 통해 하나씩 검색하는 것입니다.
연구자들은 모델이 명시적으로 훈련되지 않았더라도 이 새로운 동시 처리 특성이 테스트에 반영된다고 설명합니다. "모델이 처음에 올바른 결정을 내리지 못할 수도 있지만, 지속적인 사고에서 가능한 많은 선택을 유지하고 추론을 통해 점차 잘못된 경로를 제거하기 위해 어떤 암묵적 가치 함수에 의해 안내될 수 있습니다."라고 그들은 썼습니다.
이미지 src="https://img.jinse.cn/7333101_image3.png">
이 그래픽은 다양한 모델이 특정 유형의 논리적 추론에서 실패할 수 있는 몇 가지 방법을 보여줍니다. (출처: 연속 잠재 공간에서 추론하도록 대규모 언어 모델 훈련하기)
비교적 간단한 수학적 추론( GSM8K ) 또는 일반 추론( ProntoQA ) 테스트에서 기존의 사고 연쇄 모델과 비교했을 때, 이 다중 경로 추론은 코코넛의 정확도를 실제로 향상시키지 못했습니다. 그러나 연구진은 이 모델이 복잡하고 복잡한 논리 조건 집합(예: "모든 사과는 과일이다, 모든 과일은 음식이다 등)을 포함하는 무작위로 생성된 ProntoQA 스타일 쿼리 세트에서 비교적 우수한 성능을 보인다는 사실을 발견했습니다.
이러한 작업에서 표준 사고 연쇄 추론 모델은 논리 연쇄 문제를 해결하려고 할 때 추론의 막다른 골목에 빠지거나 완전히 허구의 규칙을 생성하는 경향이 있습니다. 이전 연구에서도 이러한 연쇄적 사고 모델에 의해 산출된 '언어화된' 논리적 단계가 "실제로는 공유된 추론 과정과는 다른 근본적인 추론 과정을 사용할 수 있다"는 사실이 밝혀졌습니다.
이 새로운 연구는 대규모 언어 모델이 기본 신경망 수준에서 어떻게 작동하는지를 이해하고 활용하기 위해 점점 더 많은 연구가 진행되고 있는 추세에 합류했습니다. 이러한 유형의 연구에서 아직 큰 진전은 없지만, 연구진은 처음부터 이러한 "사고의 연속성"을 갖춘 사전 학습 모델을 사용하면 "모델이 더 광범위한 추론 시나리오에서 더 효과적으로 일반화할 수 있다"고 믿습니다.