DeepSeek thực sự tăng tốc vòng tròn mô hình lớn——
Vừa rồi, OpenAI đã khẩn trương phát hành mô hình suy luận mới nhất , loạt o3-mini.
Có tổng cộng ba phiên bản: thấp, trung bình và cao.
O3-mini và o3-mini-high hiện đã trực tuyến:

Theo tuyên bố chính thức, mô hình dòng o3 nhằm mục đích thúc đẩy lý luận chi phí thấp ranh giới của.
Người dùng ChatGPT Plus, Team và Pro có thể truy cập OpenAI o3-mini bắt đầu từ hôm nay và quyền truy cập cấp doanh nghiệp sẽ khả dụng sau đó một tuần.
Người dùng miễn phí cũng có thể sử dụng o3-mini để trải nghiệm tìm kiếm bằng cách chọn "Tìm kiếm + Lý do".

Có lẽ nó đã bị DeepSeek dồn vào chân tường. Đây là lần đầu tiên OpenAI tung ra một mô hình suy luận miễn phí cho người dùng.
Ngay cả trong sự kiện "Hỏi và Đáp" trên Reddit sau đó, CEO Altman cũng hiếm khi công khai phản ánh:
Cùng lúc đó, chỉ trong vòng vài giờ, cư dân mạng đã bắt đầu điên cuồng thử nghiệm ing...
Được tối ưu hóa cho lý luận STEM, nhưng giá vẫn cao ngất ngưởng so với DeepSeek-R1
Chúng ta hãy cùng xem xét báo cáo kỹ thuật đầu tiên. Cái gì.

Vào cuối năm ngoái, OpenAI đã ra mắt phiên bản xem trước o3-mini, một lần nữa làm mới khả năng của các mô hình nhỏ. (Có giá thành và độ trễ thấp tương đương với o1-mini)
Vào thời điểm đó, CEO Ultraman đã thông báo rằng phiên bản chính thức sẽ được phát hành vào tháng 1 năm nay. Vào thời điểm cuối cùng của DDL, phiên bản chính thức của o3-mini cuối cùng đã được phát hành.
Nhìn chung, tương tự như thế hệ o1-mini trước, nó cũng được tối ưu hóa cho STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học), tiếp tục loạt mini Nhỏ nhưng đẹp.
Chỉ có o3-mini (trung bình) không chỉ hoạt động tốt như dòng o1 trong mã hóa toán học mà còn phản hồi nhanh hơn.
Đánh giá của chuyên gia cho thấy trong hầu hết các trường hợp, o3-mini đưa ra câu trả lời chính xác và rõ ràng hơn so với o1-mini, đạt 56%, và giảm tỷ lệ mắc lỗi nghiêm trọng khi giải quyết các vấn đề phức tạp trong thế giới thực xuống 39%.
Về khả năng toán học, O3-mini (thấp) với cường độ suy luận thấp đạt đến mức tương đương với O1-mini ; trung bình Ở cường độ suy luận thấp, khả năng của nó tương đương với phiên bản đầy đủ của o1; và khi cường độ suy luận đạt mức tối đa (cao), hiệu suất của nó vượt trội hoàn toàn so với tất cả các mẫu trong dòng o1.

Trong bài kiểm tra khó FrontierMath do hơn 60 nhà toán học hàng đầu biên soạn, o3-mini với cường độ suy luận cao cũng đã được cải thiện đáng kể so với dòng o1.
Vị quan chức này thậm chí còn lưu ý cụ thể rằng nếu sử dụng với các công cụ Python, o3-mini (cao) đã giải quyết được hơn 32% số vấn đề ngay trong lần thử đầu tiên câu hỏi, bao gồm hơn 28% câu hỏi ở trình độ T3.

Về khả năng khoa học, đối với các bài toán vật lý, hóa học và sinh học trình độ tiến sĩ, o3-mini với cường độ suy luận thấp đã mở ra một cấp độ với o1-mini.

Tất nhiên, về khả năng mã hóa quan trọng, o3-mini vượt trội hơn dòng o1 ở mọi cấp độ.

Dựa trên hiệu suất của chúng trong LiveBench, có thể thấy rằng khi cường độ suy luận được nâng cấp, lợi thế của o3-mini tiếp tục mở rộng.

Và cần lưu ý rằng trong khi o3-mini đã đạt được sự dẫn đầu như đã đề cập ở trên, thì nó cũng phản hồi nhanh hơn, với thời gian phản hồi trung bình là 7,7 giây, tăng 24% so với o1-mini là 10,16 giây.

Cuối cùng, xét về mặt đánh giá bảo mật, o3-mini vượt trội hơn đáng kể so với GPT-4o trong nhiều đánh giá bảo mật.

Về giá cả, so với DeepSeek-R1 có giá đầu vào/đầu ra tương ứng là 0,14/0,55 đô la Mỹ thì o3-mini vẫn còn rất đắt.

Theo đánh giá tích cực của cư dân mạng, DeepSeek-R1 vẫn là vua về hiệu quả chi phí: nhanh hơn, tốt hơn và rẻ hơn.

BTW, OpenAI đã công bố nhóm phát triển o3-mini như thường lệ. Có thể thấy rằng lần này nhóm được chính Ultraman chỉ huy, còn giám đốc dự án nghiên cứu là Carpus Chang và Kristen Ying (trong danh sách cũng có nhiều người bạn cũ mà chúng ta quen thuộc, chẳng hạn như Ren Hongyu, Zhao Shengjia, v.v.) .).

Cư dân mạng đang điên cuồng thử nghiệm nó
Như chúng tôi vừa đề cập, cư dân mạng đã bắt đầu điên cuồng thử nghiệm nó.
Tuy nhiên, xét theo các đánh giá, mọi người có ý kiến trái chiều về hiệu suất của o3-mini.
Ví dụ, trong nhiệm vụ triển khai "một quả bóng nảy bên trong thể tích 4D" bằng Python, một số người cho rằng o3-mini là LLM tốt nhất:< /p>< Hiệu ứng như thế này:



Bao gồm thêm Đối với các tác vụ phức tạp hơn , o3-mini hiện cũng có thể tạo ra 100 quả bóng vàng nảy trong một quả cầu: Một trò chơi của hai con rắn cạnh tranh với nhau:
Ngoài DeepSeek, cư dân mạng cũng so sánh hiệu ứng của o1 và o3-mini, chẳng hạn như tạo ra một thành phố nổi khổng lồ, tuyệt vời và hoành tráng.

Một cư dân mạng khác đã đặt một câu hỏi khó hiểu mà hầu hết các mô hình lớn đều trả lời sai, nhưng điều khiến anh ấy sốc là o3-mini thực sự đã trả lời đúng:

Tuy nhiên, Lex Fridman, một blogger podcast nổi tiếng, Đánh giá là :OpenAI o3-mini là một mô hình tốt, nhưng DeepSeek R1 có hiệu suất tương tự, giá thấp hơn và bộc lộ quá trình suy luận của nó.
Những mô hình tốt hơn sẽ ra mắt (không thể chờ đợi o3-pro), nhưng "khoảnh khắc DeepSeek" là có thật. Tôi nghĩ rằng năm năm sau, nó vẫn sẽ được ghi nhớ như một bước ngoặt trong lịch sử công nghệ.

Một điều nữa
Chỉ vài giờ sau khi o3-mini lên mạng, chính Ultraman và nhóm của anh đã tham gia Hoạt động "Hỏi và Trả lời" của Reddit .

Cân nhắc rằng DeepSeek nguồn mở gần đây đã khuấy động vòng tròn AI, Altman hiếm khi phản ánh công khai:
Về vấn đề mô hình AI có trọng số nguồn mở, (cá nhân) Chúng ta đang ở phía sai lầm của lịch sử.

Ngay cả thừa nhận rằng khoảng cách dẫn trước của OpenAI sẽ không còn lớn như trước.
DeepSeek thực sự tuyệt vời và chúng tôi sẽ tiếp tục phát triển các mô hình tốt hơn, nhưng khoảng cách giữa chúng tôi và đối thủ sẽ thu hẹp lại.

Cùng lúc đó, một số kế hoạch tương lai của OpenAI cũng được tiết lộ.
Ví dụ, mô hình giọng nói nâng cao sắp được cập nhật và OpenAI sẽ gọi trực tiếp là GPT-5 thay vì GPT-5o, nhưng không có thông tin cụ thể chưa có thời gian biểu.

Ngoài ra, mô hình suy luận cũng sẽ hỗ trợ việc gọi nhiều công cụ hơn.

Cuối cùng, phiên bản đầy đủ của o3 cũng đã được đề cập, nhưng có vẻ như vẫn còn khá xa...
