DALL.E 3 cuối cùng cũng đã ngừng hoạt động sau động thái gần đây của OpenAI khi tích hợp tính năng tạo hình ảnh trực tiếp vào ChatGPT, cho phép người dùng tạo hình ảnh mà không cần rời khỏi giao diện trò chuyện.
Công ty đã công bố bản cập nhật mới vào thứ Ba, giải thích động thái này phù hợp với mục tiêu rộng lớn hơn của công ty là làm cho các công cụ AI dễ tiếp cận và linh hoạt hơn trên nhiều phương tiện truyền thông khác nhau, củng cố sự hiện diện của công ty trong không gian nghệ thuật AI.
Bản cập nhật mới sẽ xây dựng trên mô hình tạo hình ảnh của DALL.E 3. Nhưng kể từ khi ra mắt vào năm 2023, mô hình AI đã phải vật lộn để duy trì sự phổ biến trong số những người đam mê AI, những người ưa chuộng các giải pháp thay thế tiên tiến hơn như Flux, MidJourney v6, SD 3.5., Redraft và Reve.
Trước đây, OpenAI tách biệt việc tạo hình ảnh và văn bản, với GPT xử lý các tác vụ dựa trên văn bản trong khi DALL·E 3 tập trung vào hình ảnh. Nhưng với GPT-4o mới, mọi thứ được hợp nhất thành một hệ thống duy nhất, về cơ bản là loại bỏ DALL·E 3.
Một mô hình thông minh hơn và có khả năng hơn
OpenAI tuyên bố trong một bài đăng trên blog rằng "Công nghệ tạo hình ảnh GPT-4o có khả năng hiển thị văn bản chính xác, tuân thủ chính xác lời nhắc và sử dụng kiến thức tích hợp cũng như ngữ cảnh trò chuyện, bao gồm cả việc chuyển đổi hoặc lấy cảm hứng từ hình ảnh đã tải lên".
Đây là một bước tiến nữa hướng tới tầm nhìn của OpenAI về GPT-4o trở thành một mô hình “omni”, có khả năng xử lý nhiều phương thức—bao gồm văn bản, hình ảnh và âm thanh—trong một khuôn khổ thống nhất. Theo công ty, GPT-4o có khả năng, độ chính xác và thông minh hơn đáng kể so với các phiên bản trước.
Trong buổi ra mắt, Giám đốc điều hành của OpenAI, Sam Altman đã giới thiệu những khả năng mới của ChatGPT-4o, nói rằng
"Chúng tôi biết bạn đã chờ đợi, nhưng chúng tôi nghĩ rằng điều đó xứng đáng. Đây là một bước tiến lớn đến mức cách tốt nhất để giải thích là chỉ cần cho mọi người thấy".
Trong phần trình diễn, OpenAI đã nêu bật một số trường hợp sử dụng, bao gồm các trang manga giải thích về thuyết tương đối với dữ liệu đầu vào bằng tiếng Anh và tiếng Quan Thoại; thẻ giao dịch tùy chỉnh được tạo từ ảnh cá nhân và ảnh thật; tiền xu kỷ niệm kết hợp nhiều hình ảnh với nền trong suốt và hình minh họa có độ chi tiết cao được tạo từ các lời nhắc cực kỳ dài.
Trong quá trình tiết lộ, Altman cũng minh bạch về một số vấn đề của mô hình tạo hình ảnh mới này, một trong số đó là tốc độ tạo ra hình ảnh. Altman tuyên bố rằng mặc dù GPT-4o có vẻ chậm hơn trong việc tạo ra hình ảnh, nhưng đó là vì nó tập trung nhiều hơn vào chất lượng hình ảnh thay vì hiệu quả tạo ra hình ảnh.
Giai đoạn phát triển ban đầu
Nhưng những gì chúng ta đang thấy hiện nay chỉ là giai đoạn phát hành đầu tiên, vì các tính năng mới sẽ được triển khai dần dần.
Khi so sánh mô hình DALL.E 3 với mô hình ChatGPT mới, chúng ta cũng có thể thấy sự khác biệt rõ rệt: trong khi hình ảnh DALL.E 3 hiện lên hoàn chỉnh sau màn hình tải lâu, thì GPT-4o mới hiển thị hình ảnh dần dần từ trên xuống dưới theo thời gian thực.
Nhưng nhóm OpenAI nhấn mạnh rằng nó không chỉ là những hình ảnh đẹp. Phần tiên tiến nhất về GPT-4o mới là nó có thể hình dung những gì chúng biết và dịch thông tin đó thành hình ảnh trực quan.
Khả năng này đặc biệt hữu ích khi áp dụng trong lĩnh vực giáo dục, chẳng hạn như thông qua sơ đồ khoa học hoặc áp phích thông tin với văn bản được hiển thị chính xác và thậm chí là chỉnh sửa hình ảnh theo chủ đề.
Bảo vệ tích hợp và mở rộng trong tương lai
Nhưng với tất cả các khả năng và công việc mới mà AI có thể làm, OpenAI đã nhớ triển khai các biện pháp bảo vệ để ngăn chặn việc sử dụng sai mục đích như deepfake và nội dung bất hợp pháp.
Mặc dù hình ảnh được tạo ra sẽ không có hình mờ có thể nhìn thấy được, nhưng chúng sẽ chứa siêu dữ liệu C2PA để chỉ ra nguồn gốc AI của chúng. OpenAI cũng đang phát triển các công cụ để theo dõi nguồn gốc hình ảnh.
Công ty có kế hoạch mở rộng tính năng này cho API của mình, cho phép các nhà phát triển tích hợp việc tạo hình ảnh vào ứng dụng của riêng họ. Ngoài ra, Điều khoản sử dụng của OpenAI xác nhận rằng người dùng sẽ giữ quyền sở hữu đối với hình ảnh do họ tạo ra, tùy thuộc vào chính sách của nền tảng.