Cách mạng hóa hoạt hình AI
Sau sự ra mắt củaLoạt phim hoạt hình AI đầu tiên của Trung Quốc , Viện Điện toán Thông minh của Alibaba đã giới thiệu một hệ thống trí tuệ nhân tạo mang tính đột phá có tên là "EMO," viết tắt của Emote Portrait Alive. Hệ thống cải tiến này có khả năng tạo hoạt ảnh cho các bức ảnh chân dung tĩnh, khiến chúng trở nên sống động trong các video trò chuyện và ca hát với độ chân thực đáng kinh ngạc.
EMO: Bước nhảy vọt trong công nghệ hoạt hình AI
EMO sử dụng phương pháp tổng hợp âm thanh thành video trực tiếp, bỏ qua nhu cầu về mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt. Kỹ thuật tiên phong này cho phép tạo ra các chuyển động trên khuôn mặt và tư thế đầu linh hoạt và biểu cảm gần giống với các sắc thái của đoạn âm thanh được cung cấp.
(Nguồn: Emote Portrait Alive)
Tổng hợp âm thanh thành video trực tiếp
Không giống như các phương pháp trước đây dựa vào mô hình khuôn mặt 3D hoặc hình dạng pha trộn, EMO chuyển đổi trực tiếp dạng sóng âm thanh thành khung hình video. Bằng cách đó, nó ghi lại những chuyển động tinh tế và các đặc điểm khuôn mặt riêng lẻ liên quan đến lời nói tự nhiên, thiết lập một tiêu chuẩn mới trong việc tạo video bằng đầu nói điều khiển bằng âm thanh.
Nhân vật: Audrey Kathleen Hepburn-Ruston, Nguồn giọng hát: Clip phỏng vấn (Nguồn: Emote Portrait Alive)
Kỹ thuật đào tạo tiên tiến
Nền tảng của hệ thống nằm ở mô hình khuếch tán, một kỹ thuật AI mạnh mẽ được biết đến với việc tạo ra hình ảnh tổng hợp giống như thật. Được đào tạo trên một tập dữ liệu khổng lồ gồm hơn 250 giờ video đầu nói được tuyển chọn có nguồn gốc từ nhiều phương tiện khác nhau, EMO đã được mài giũa một cách tỉ mỉ để mang lại chất lượng và tính biểu cảm tuyệt vời.
Số liệu hiệu suất vượt trội
Các kết quả thử nghiệm được nêu trong bài nghiên cứu cho thấy tính ưu việt của EMO so với các phương pháp hiện có. Nó vượt trội so với các đối thủ cạnh tranh ở các số liệu quan trọng như chất lượng video, bảo tồn danh tính và tính biểu cảm. Một nghiên cứu về người dùng tiếp tục xác nhận tính tự nhiên và cảm xúc của các video do EMO tạo ra.
Mở rộng khả năng: Hát Video
Ngoài các video hội thoại, EMO còn thể hiện sự thành thạo trong việc tạo hoạt ảnh cho các bức chân dung ca hát. Với khả năng đồng bộ hóa hình dạng miệng và nét mặt với giọng hát, nó tạo ra những video ca hát có tính chân thực và biểu cảm vượt trội, vượt qua các tiêu chuẩn ngành hiện hành.
Nhân vật: AI Lady từ SORA, Nguồn giọng: Dua Lipa - Don't Start Now (Nguồn: Emote Portrait Alive)
Khả năng của nó cũng bao gồm đọc rap, mở rộng hơn nữa tiềm năng sáng tạo của nó.
Nhân vật: Người nổi tiếng Trung Quốc Cai Xu Kun, Nguồn giọng: Eminem - Rap God (Nguồn: Emote Portrait Alive)
Ý nghĩa và cân nhắc về mặt đạo đức
Không thể phủ nhận khả năng tạo hoạt ảnh cho các bức chân dung tĩnh của EMO rất ấn tượng, mang đến những con đường mới cho việc sáng tạo nội dung được cá nhân hóa. Tuy nhiên, khả năng sử dụng sai, bao gồm cả việc tạo radeepfake về nội dung khiêu dâm như đã thấy trong vụ án Taylor Swift gần đây , truyền bá thông tin sai lệch nhưThủ tướng Singapore Lý Hiển Long quảng bá tiền điện tử , hoặc thậm chí ảnh hưởng đến cuộc bầu cử như đã chứng kiến trongCuộc bầu cử Tổng thống Hoa Kỳ năm 2024 , là một sự cân nhắc quan trọng. Giống như bất kỳ công nghệ mạnh mẽ nào, sự phát triển và các biện pháp bảo vệ có trách nhiệm là điều cần thiết để giảm thiểu những tác hại tiềm ẩn và đảm bảo EMO vẫn là một lực lượng tốt.
Một cái nhìn thoáng qua về tương lai
EMO của Alibaba thể hiện một bước tiến đáng kể trong công nghệ hoạt hình AI. Khả năng thổi sức sống vào các hình ảnh tĩnh, tạo ra các video nói chuyện và ca hát sống động như thật, hứa hẹn mang lại nhiều hứa hẹn cho nhiều ứng dụng khác nhau. Tuy nhiên, giống như bất kỳ công nghệ biến đổi nào, việc xem xét cẩn thận các tác động đạo đức là điều tối quan trọng để đảm bảo sự đổi mới có trách nhiệm.