Nguồn: Lượng tử
Một bài viết chính hôm nay trên Ars Technica khám phá câu hỏi liệu các mô hình ngôn ngữ lớn có khả năng suy luận phi ngôn ngữ hay không, trích dẫn phát hiện của các nhà nghiên cứu rằng quá trình xử lý trong "không gian tiềm ẩn" có thể giúp ích trí tuệ nhân tạo giải quyết các vấn đề logic khó khăn. Chuyện gì đang xảy ra vậy? Hãy tiếp tục đọc nhé.
Cho đến nay, các mô hình ngôn ngữ lớn đã đạt được thành công lớn, sử dụng kiến trúc biến áp của chúng để dự đoán một cách hiệu quả từ tiếp theo (tức là mã thông báo ngôn ngữ) cần thiết để trả lời một truy vấn. Tuy nhiên, khi đề cập đến các nhiệm vụ suy luận phức tạp đòi hỏi logic trừu tượng, một số nhà nghiên cứu nhận thấy việc giải thích mọi thứ thông qua “không gian ngôn ngữ” này có thể gây ra một số vấn đề, ngay cả đối với các mô hình “suy luận” hiện đại.
Hiện các nhà nghiên cứu đang cố gắng giải quyết những vấn đề này bằng cách thiết kế các mô hình có thể xử lý logic cơ bản hoàn toàn trong "không gian tiềm ẩn" - lớp tính toán ẩn trước khi bộ chuyển đổi tạo ra giải pháp. Mặc dù cách tiếp cận này không dẫn đến sự thay đổi lớn về khả năng suy luận của các mô hình ngôn ngữ lớn, nhưng nó cải thiện đáng kể độ chính xác của một số loại vấn đề logic nhất định và chỉ ra một số hướng thú vị cho nghiên cứu mới.
Đợi chút, chỗ nào cơ?
Các mô hình suy luận hiện đại (như ChatGPT's o1) có xu hướng hoạt động bằng cách tạo ra "chuỗi suy nghĩ". Trong các mô hình này, mỗi bước của quy trình logic được biểu diễn dưới dạng một chuỗi mã thông báo từ ngôn ngữ tự nhiên và được phản hồi thông qua mô hình.
Trong một bài báo mới, các nhà nghiên cứu từ Nhóm nghiên cứu trí tuệ nhân tạo Meta Foundational và Đại học California, San Diego xác định sự phụ thuộc vào ngôn ngữ tự nhiên và "mã từ" là một "hạn chế cơ bản đối với các mô hình suy luận này. " nhân tố". Điều này là do việc hoàn thành thành công các nhiệm vụ suy luận thường đòi hỏi phải lập kế hoạch phức tạp về các điểm đánh dấu khóa cụ thể để tìm ra đường dẫn logic chính xác từ nhiều tùy chọn.
Hình trên minh họa rằng mỗi bước của mô hình chuẩn phải đi qua bộ chuyển đổi và Mô hình COCONUT sử dụng sự khác biệt "tiềm ẩn" giữa các trạng thái. (Nguồn hình ảnh: Đào tạo các mô hình ngôn ngữ lớn để suy luận trong một không gian tiềm ẩn liên tục)
Trong các mô hình chuỗi suy nghĩ hiện tại, việc gắn thẻ từ thường nhằm mục đích "sự mạch lạc của văn bản" và "sự trôi chảy", các nhà nghiên cứu viết ” và “. đóng góp rất ít vào quá trình suy luận thực sự.” Thay vào đó, họ đề xuất: "Lý tưởng nhất là các mô hình ngôn ngữ lớn sẽ được tự do suy luận mà không có bất kỳ ràng buộc nào về ngôn ngữ và sau đó chỉ chuyển những phát hiện của họ sang ngôn ngữ khi cần thiết".
Để đạt được điều này" Lý tưởng", các nhà nghiên cứu mô tả một phương pháp "huấn luyện các mô hình ngôn ngữ lớn để suy luận trong các không gian tiềm ẩn liên tục", như tiêu đề của bài báo nêu rõ. "Không gian tiềm ẩn" này về cơ bản bao gồm một tập hợp các trọng số được gắn nhãn trung gian "ẩn" mà mô hình chứa trước khi máy biến áp tạo ra phiên bản ngôn ngữ tự nhiên mà con người có thể đọc được của trạng thái bên trong này.
Trong mô hình DỪA (Chuỗi suy nghĩ liên tục) của các nhà nghiên cứu, các trạng thái ẩn này được mã hóa thành "suy nghĩ tiềm ẩn" thay thế các bước viết riêng lẻ theo trình tự logic khi đào tạo và xử lý truy vấn. Các nhà nghiên cứu viết rằng điều này tránh phải chuyển đổi sang ngôn ngữ tự nhiên ở mỗi bước và "giải phóng lý luận khỏi không gian ngôn ngữ", dẫn đến một lộ trình lý luận được tối ưu hóa mà họ gọi là "tư duy tuần tự".
Tầm nhìn rộng hơn
Mặc dù việc xử lý logic trong không gian tiềm ẩn có những lợi ích nhất định trong việc cải thiện hiệu quả của mô hình, nhưng phát hiện quan trọng hơn là Mô hình này có thể "mã hóa nhiều các bước tiếp theo tiềm năng cùng một lúc." Việc xử lý logic trong một "không gian tiềm ẩn" cho phép thực hiện một kiểu quay lui tức thời mà các nhà nghiên cứu ví như tìm kiếm theo chiều rộng trong biểu đồ. Thay vì tìm kiếm từng phương án hợp lý một cách trọn vẹn và từng phương án một trong một quy trình “tham lam”.
Đặc điểm xử lý đồng thời, mới nổi này thể hiện trong quá trình thử nghiệm ngay cả khi mô hình không được đào tạo rõ ràng, các nhà nghiên cứu viết. Họ viết: “Mặc dù ban đầu mô hình có thể không đưa ra quyết định chính xác, nhưng nó có thể duy trì nhiều lựa chọn khả thi trong tư duy tuần tự, được hướng dẫn bởi một số hàm giá trị tiềm ẩn và dần dần loại bỏ các đường dẫn không chính xác thông qua lý luận”.
Sơ đồ này nêu bật một số cách mà các mô hình khác nhau có thể thất bại trong một số kiểu suy luận logic nhất định. (Nguồn: Đào tạo các mô hình ngôn ngữ lớn để suy luận trong không gian tiềm ẩn liên tục)
Trong bài kiểm tra lý luận toán học tương đối đơn giản (GSM8K) hoặc bài kiểm tra lý luận chung (ProntoQA), so với tư duy truyền thống So với mô hình chuỗi, suy luận đa đường này không thực sự cải thiện độ chính xác của DỪA. Nhưng các nhà nghiên cứu nhận thấy rằng mô hình này hoạt động tương đối tốt trên một tập hợp các truy vấn kiểu ProntoQA được tạo ngẫu nhiên liên quan đến các tập hợp điều kiện logic phức tạp và phức tạp (ví dụ: “Mỗi quả táo là một loại trái cây, mỗi loại trái cây là thực phẩm, v.v.”).
Đối với những nhiệm vụ này, các mô hình suy luận chuỗi tư duy tiêu chuẩn thường rơi vào ngõ cụt trong suy luận khi cố gắng giải quyết các vấn đề về chuỗi logic, hoặc thậm chí tạo ra các quy tắc hoàn toàn hư cấu. Nghiên cứu trước đây cũng gợi ý rằng các bước logic "bằng lời nói" được tạo ra bởi các mô hình chuỗi suy nghĩ này "thực sự có thể khai thác các quy trình lý luận cơ bản khác với các quy trình lý luận chung".
Nghiên cứu mới tham gia vào một nhóm nghiên cứu đang phát triển nhằm tìm hiểu và khai thác cách các mô hình ngôn ngữ lớn hoạt động ở cấp độ mạng lưới thần kinh cơ bản của chúng. Mặc dù loại nghiên cứu này vẫn chưa đạt được những đột phá lớn, nhưng các nhà nghiên cứu tin rằng các mô hình đã được huấn luyện trước với kiểu “suy nghĩ liên tục” này ngay từ đầu có thể “cho phép mô hình khái quát hóa hiệu quả hơn trong nhiều tình huống suy luận khác nhau”.