ChatGPT của OpenAI đang chuẩn bị giới thiệu một loạt các tính năng mới được thiết lập để xác định lại sự tương tác của người dùng.
trong mộtthông báo được đưa ra vào ngày 25 tháng 9 thông qua bài đăng trên blog chính thức , OpenAI đã tiết lộ những cải tiến sắp tới sẽ cho phép người dùng tương tác với ChatGPT thông qua phương tiện động là hình ảnh và nhận dạng giọng nói.
Một trong những điểm nổi bật của bản nâng cấp này là khả năng cho phép người dùng tương tác với ChatGPT thông qua lệnh thoại, hứa hẹn mang lại trải nghiệm người dùng cá nhân hóa và phong phú hơn.
Tính năng này lấy sức mạnh từ mô hình chuyển văn bản thành giọng nói thành thạo trong việc tạo ra âm thanh dựa trên giọng nói mẫu tối thiểu do các diễn viên lồng tiếng chuyên nghiệp tạo ra.
Điều đáng chú ý là hệ thống nhận dạng giọng nói nguồn mở của OpenAI, được gọi là Whisper, đóng một vai trò không thể thiếu trong việc cung cấp năng lượng cho giao diện giọng nói sáng tạo này.
Các ứng dụng tiềm năng của các tính năng giọng nói này rất đa dạng và hấp dẫn.
Người dùng có thể dự đoán phạm vi sử dụng rộng hơn, từ đọc truyện trước khi đi ngủ và chế tạo công thức nấu ăn cho đến soạn bài phát biểu, ngâm thơ, giải thích các cụm từ thông dụng hoặc thậm chí phân xử "các cuộc tranh luận trên bàn ăn tối."
Tầm nhìn của OpenAI rất rõ ràng: nâng cao và làm phong phú thêm cách thức các cá nhân tương tác với công nghệ trong cuộc sống hàng ngày của họ.
Hơn nữa, OpenAI đang chuẩn bị trao quyền cho người dùng khả năng gửi hình ảnh tới ChatGPT để diễn giải và phản hồi hoặc làm nổi bật có chọn lọc các yếu tố cụ thể trong hình ảnh để khám phá chi tiết.
Theo công ty:
“Giọng nói và hình ảnh mang đến cho bạn nhiều cách hơn để sử dụng ChatGPT trong cuộc sống. Chụp ảnh một địa danh khi đi du lịch và trò chuyện trực tiếp về những điều thú vị về địa điểm đó."
Những bổ sung này tìm thấy vị trí của chúng trong phạm vi mà OpenAI gọi là GPT Vision hoặc GPT-V, khác với GPT-5 về mặt lý thuyết nhưng dù sao cũng là một bước tiến đáng kể.
Những yếu tố này, tạo thành nền tảng của mộtphiên bản đa phương thức nâng cao của GPT-4 , phù hợp với những đoạn giới thiệu trước đó của OpenAI về sự phát triển công nghệ của họ vào đầu năm nay.
Nâng cấp đáng kể này diễn ra ngay sau khi OpenAI ra mắt DALL-E 3, một trình tạo chuyển văn bản thành hình ảnh đã nhận được nhiều lời khen ngợi từ những người thử nghiệm ban đầu về chất lượng và độ chính xác vượt trội.
Trong một sự hội tụ hấp dẫn, DALL-E 3 tìm thấy vị trí của mình trong ChatGPT Plus, một dịch vụ đăng ký được củng cố bởi GPT-4.
Sự kết hợp của DALL-E 3 và trò chuyện thoại thể hiện cam kết kiên định của OpenAI trong việc thúc đẩy các trợ lý AI có khả năng nhận thức thế giới giống như nhận thức của con người, khai thác nhiều giác quan để nâng cao trải nghiệm người dùng.
Có bất kỳ rủi ro nào liên quan đến hệ thống AI đa phương thức liên quan đến tầm nhìn và tạo giọng nói không?
Tuy nhiên, OpenAI vẫn duy trì lập trường cảnh giác về những nguy cơ tiềm ẩn vốn có trong việc củng cố khả năng của các hệ thống AI đa phương thức bao gồm cả việc tạo ra hình ảnh và giọng nói.
Những lo ngại liên quan xoay quanh nguy cơ mạo danh, bóng ma thiên vị rình rập và sự phụ thuộc phức tạp vào việc diễn giải bằng hình ảnh.
Công ty nêu trong thông báo của mình:
“Mục tiêu của OpenAI là xây dựng AGI an toàn và có lợi. Chúng tôi tin tưởng vào việc cung cấp các công cụ của mình dần dần, điều này cho phép chúng tôi cải tiến và tinh chỉnh các biện pháp giảm thiểu rủi ro theo thời gian, đồng thời chuẩn bị cho mọi người những hệ thống mạnh mẽ hơn trong tương lai."
Trong một động thái chiến lược, OpenAI đã vạch ra kế hoạch triển khai các tính năng đổi mới này.
Trước mắt, người dùng Plus và Enterprise sẽ được cấp quyền truy cập vào các khả năng này trong vòng hai tuần tới.
Hơn nữa, OpenAI còn có ý định mở rộng quyền truy cập này tới cộng đồng các nhà phát triển rộng lớn hơn trong các giai đoạn tiếp theo.