Vào ngày 1 tháng 8, Gemini 1.5 Pro của Google đã lặng lẽ ra mắt và nhanh chóng gây chú ý khi vượt qua ChatGPT-4o của OpenAI về các điểm chuẩn AI tổng hợp. Mô hình mới, được gắn nhãn là thử nghiệm, đã trở thành mô hình có hiệu suất cao nhất trong cộng đồng AI, theo điểm chuẩn gần đây.
Điểm chuẩn các mô hình AI
ChatGPT của OpenAI đã dẫn đầu về tiêu chuẩn về AI tổng hợp kể từ GPT-3. Phiên bản mới nhất của nó, GPT-4o, cùng với Claude-3 của Anthropic, đã thống trị hầu hết các điểm chuẩn phổ biến trong năm qua. Một trong những bài kiểm tra quan trọng, LMSYS Chatbot Arena, đánh giá các mô hình AI trong các nhiệm vụ khác nhau và ấn định điểm năng lực tổng thể. GPT-4o trước đó giữ số điểm 1.286, trong khi Claude-3 đạt 1.271.
Phiên bản trước của Gemini 1.5 Pro đạt 1.261 điểm. Tuy nhiên, phiên bản thử nghiệm mới nhất (Gemini 1.5 Pro 0801) lại đạt được số điểm 1.300, cho thấy khả năng tổng thể cao hơn so với các đối thủ. Mặc dù điểm chuẩn cung cấp dấu hiệu về hiệu suất nhưng chúng không thể hiện đầy đủ phạm vi khả năng hoặc giới hạn của mô hình AI.
Phản ứng của cộng đồng
Cộng đồng AI đã hưởng ứng nhiệt tình với việc phát hành Gemini 1.5 Pro. Tin đồn trên mạng xã hội nêu bật hiệu suất ấn tượng của mô hình này, với một số người dùng mô tả nó là "cực kỳ tốt". và thậm chí vượt qua ChatGPT-4o. Một Redditor lưu ý rằng nó "thổi 4o lên khỏi mặt nước" phản ánh sự phấn khích xung quanh mô hình mới.
Những cân nhắc trong tương lai
Vẫn chưa chắc chắn liệu phiên bản thử nghiệm của Gemini 1.5 Pro có trở thành mẫu mặc định hay không. Với trạng thái hiện tại là giai đoạn thử nghiệm hoặc phát hành sớm, mô hình có thể bị thay đổi hoặc thu hồi vì lý do an toàn hoặc căn chỉnh.