Đăng nhập/ Đăng ký

Các nhà nghiên cứu phát triển công cụ AI để giám sát và ngăn chặn kết quả có hại trong mô hình ngôn ngữ

21/11/2023 01:20

Theo Cointelegraph, một nhóm các nhà nghiên cứu từ công ty trí tuệ nhân tạo (AI) AutoGPT, Đại học Đông Bắc và Microsoft Research đã phát triển một công cụ giám sát các mô hình ngôn ngữ lớn (LLM) để phát hiện các kết quả đầu ra có hại và ngăn chúng thực thi. Tác nhân này được mô tả trong một bài báo nghiên cứu chưa in có tiêu đề “Thử nghiệm các tác nhân mô hình ngôn ngữ một cách an toàn trong tự nhiên”. Nghiên cứu cho biết tác nhân này đủ linh hoạt để giám sát các LLM hiện có và có thể ngăn chặn các kết quả đầu ra có hại như tấn công mã trước khi chúng xảy ra. Các công cụ hiện có để giám sát đầu ra LLM nhằm phát hiện các tương tác có hại dường như hoạt động tốt trong môi trường phòng thí nghiệm, nhưng khi áp dụng cho các mô hình thử nghiệm đã được sản xuất trên internet mở, chúng thường không nắm bắt được những phức tạp động của thế giới thực. Điều này phần lớn là do sự tồn tại của các trường hợp nguy hiểm và các nhà nghiên cứu không thể tưởng tượng được mọi vectơ gây hại có thể xảy ra trước khi nó xảy ra trong lĩnh vực AI. Ngay cả khi con người tương tác với AI có mục đích tốt nhất, tác hại không mong muốn vẫn có thể nảy sinh từ những lời nhắc nhở tưởng chừng như vô hại. Để đào tạo tác nhân giám sát, các nhà nghiên cứu đã xây dựng một tập dữ liệu gồm gần 2.000 tương tác an toàn giữa con người/AI trên 29 nhiệm vụ khác nhau, từ các tác vụ truy xuất văn bản đơn giản và sửa mã hóa cho đến phát triển toàn bộ trang web từ đầu. Họ cũng tạo ra một tập dữ liệu thử nghiệm cạnh tranh chứa đầy các kết quả đầu ra đối nghịch được tạo thủ công, bao gồm hàng chục kết quả được thiết kế không an toàn. Sau đó, các bộ dữ liệu này được sử dụng để đào tạo một tác nhân về GPT 3.5 turbo của OpenAI, một hệ thống tiên tiến, có khả năng phân biệt giữa đầu ra vô hại và đầu ra có khả năng gây hại với hệ số chính xác gần 90%.

Tăng giá

Bearish

Cập nhật trực tiếp

Hôm qua
Mocaverse NFT Floor Price Surges by 81.6% in 24 Hours
Tăng giá
Bearish
Hôm qua
Whales Accumulate $11.36 Million in PEPE Over 13 Hours
Tăng giá
Bearish
Hôm qua
Megabit sẽ ra mắt hợp đồng vĩnh viễn DEOG USDT, hỗ trợ đòn bẩy lên tới 75 lần
Tăng giá
Bearish
Hôm qua
Phân tích: Trump hy vọng sẽ thiết lập quỹ dự trữ chiến lược Bitcoin và các yếu tố khác để giúp BTC đạt được mức cao mới
Tăng giá
Bearish
Hôm qua
MultiverseX: EGLD Price Breakout, Can It Surge Over 400%?
Tăng giá
Bearish
Hôm qua
Giám đốc điều hành Quỹ hành động Satoshi: Tiểu bang thứ ba của Hoa Kỳ sẽ chính thức ban hành luật “dự trữ Bitcoin chiến lược” trong tuần này
Tăng giá
Bearish
Hôm qua
Ripple News: New ‘XRP ARMY’ Logo Revealed by XRP Logo’s Original Designer
Tăng giá
Bearish
Hôm qua
Phân tích: Bitcoin có thể đã bước vào "chế độ ông già Noel" và dự kiến sẽ đạt 125.000 USD vào đầu năm tới
Tăng giá
Bearish
Hôm qua
OpenAI Co-Founder Predicts End Of AI Pre-Training Era At NeurIPS 2024
Tăng giá
Bearish
Hôm qua
Wall Street Veteran Dennis Gartman Chooses Gold Over Bitcoin Despite BTC's Record-Breaking Bull Run: 'I Prefer Centuries Bet Over Monthly Bet'
Tăng giá
Bearish

Hơn

Tin tức xu hướng

Hơn

Các nhà nghiên cứu phát triển công cụ AI để giám sát và ngăn chặn kết quả có hại trong mô hình ngôn ngữ

Cập nhật trực tiếp

Tin tức xu hướng

Con rể của ca sĩ "Dưới cây đa" gặp rắc rối! Cảnh sát Đài Loan bắt và giam giữ anh ta vì cáo buộc rửa tiền điện tử, có liên kết chặt chẽ với một sàn giao dịch

Các tín hiệu truyền thông chính thức của Trung Quốc Cảnh báo lớn! Ai chịu lỗ khi đầu tư vào USDT và tiền điện tử?

Michael Saylor luôn tin rằng SEC sẽ coi Ethereum là chứng khoán bằng cách từ chối đơn đăng ký Ethereum ETF giao ngay vào mùa hè

Ryan Salame đầu hàng tài sản của Bahamas trong thỏa thuận nhận tội

ALan Scott: Sự hỗ trợ vô hình cho quyền riêng tư về tiền điện tử của các nhà lãnh đạo Hoa Kỳ

Tether và Chainalysis để triển khai hệ thống giám sát nhằm nhắm mục tiêu vào các hoạt động bất hợp pháp và tuân thủ

Pantera Capital đặt cược vào chuỗi khối TON của Telegram để thu hút việc áp dụng tiền điện tử hàng loạt

Những người đam mê tiền điện tử thường nói về sự an toàn của Singapore, tuy nhiên một nữ quản lý sàn giao dịch sau thập niên 90 đã bị cướp gần 3,9 triệu SGD

Vi phạm dữ liệu lớn của Dropbox làm lộ thông tin nhạy cảm của khách hàng

Hàng trăm hacker tài chính bắt đầu chuyển 7,4 triệu đô la tài sản tiền điện tử bị đánh cắp sau một năm gián đoạn