Theo Cointelegraph, một nhóm các nhà nghiên cứu từ công ty trí tuệ nhân tạo (AI) AutoGPT, Đại học Đông Bắc và Microsoft Research đã phát triển một công cụ giám sát các mô hình ngôn ngữ lớn (LLM) để phát hiện các kết quả đầu ra có hại và ngăn chúng thực thi. Tác nhân này được mô tả trong một bài báo nghiên cứu chưa in có tiêu đề “Thử nghiệm các tác nhân mô hình ngôn ngữ một cách an toàn trong tự nhiên”. Nghiên cứu cho biết tác nhân này đủ linh hoạt để giám sát các LLM hiện có và có thể ngăn chặn các kết quả đầu ra có hại như tấn công mã trước khi chúng xảy ra.
Các công cụ hiện có để giám sát đầu ra LLM nhằm phát hiện các tương tác có hại dường như hoạt động tốt trong môi trường phòng thí nghiệm, nhưng khi áp dụng cho các mô hình thử nghiệm đã được sản xuất trên internet mở, chúng thường không nắm bắt được những phức tạp động của thế giới thực. Điều này phần lớn là do sự tồn tại của các trường hợp nguy hiểm và các nhà nghiên cứu không thể tưởng tượng được mọi vectơ gây hại có thể xảy ra trước khi nó xảy ra trong lĩnh vực AI. Ngay cả khi con người tương tác với AI có mục đích tốt nhất, tác hại không mong muốn vẫn có thể nảy sinh từ những lời nhắc nhở tưởng chừng như vô hại.
Để đào tạo tác nhân giám sát, các nhà nghiên cứu đã xây dựng một tập dữ liệu gồm gần 2.000 tương tác an toàn giữa con người/AI trên 29 nhiệm vụ khác nhau, từ các tác vụ truy xuất văn bản đơn giản và sửa mã hóa cho đến phát triển toàn bộ trang web từ đầu. Họ cũng tạo ra một tập dữ liệu thử nghiệm cạnh tranh chứa đầy các kết quả đầu ra đối nghịch được tạo thủ công, bao gồm hàng chục kết quả được thiết kế không an toàn. Sau đó, các bộ dữ liệu này được sử dụng để đào tạo một tác nhân về GPT 3.5 turbo của OpenAI, một hệ thống tiên tiến, có khả năng phân biệt giữa đầu ra vô hại và đầu ra có khả năng gây hại với hệ số chính xác gần 90%.