ChatGPT OpenAI & # 39; s ChatGPT hampir memperkenalkan serangkaian fitur baru yang transformatif yang dirancang untuk mendefinisikan ulang interaksi pengguna.
Dalam sebuahpengumuman yang dibuat pada tanggal 25 September melalui posting blog resminya OpenAI mengungkapkan peningkatan yang akan datang yang akan memungkinkan pengguna untuk terlibat dengan ChatGPT melalui media dinamis gambar dan pengenalan suara.
Di antara hal yang menarik dari peningkatan ini adalah kemampuan bagi pengguna untuk berinteraksi dengan ChatGPT melalui perintah suara, yang menjanjikan pengalaman pengguna yang lebih personal dan imersif.
Fitur ini mendapatkan kekuatannya dari model text-to-speech yang mahir dalam menghasilkan audio berdasarkan sampel ucapan minimal, yang dibuat oleh aktor suara profesional.
Perlu dicatat bahwa sistem pengenalan suara sumber terbuka OpenAI, yang dikenal sebagai Whisper, memainkan peran integral dalam memberdayakan antarmuka suara yang inovatif ini.
Potensi aplikasi fitur suara ini sangat beragam dan menarik.
Pengguna dapat mengantisipasi spektrum kasus penggunaan yang lebih luas, mulai dari membacakan cerita sebelum tidur dan membuat resep hingga menulis pidato, membacakan puisi, menjelaskan frasa umum, atau bahkan menjadi penengah dalam "perdebatan di meja makan";
Visi OpenAI jelas: untuk meningkatkan dan memperkaya cara-cara individu berinteraksi dengan teknologi dalam kehidupan sehari-hari.
Selain itu, OpenAI bersiap untuk memberdayakan pengguna dengan kemampuan untuk mengirimkan gambar ke ChatGPT untuk diinterpretasikan dan ditanggapi, atau secara selektif menyoroti elemen tertentu dalam gambar untuk eksplorasi yang mendetail.
Menurut perusahaan:
"Suara dan gambar memberi Anda lebih banyak cara untuk menggunakan ChatGPT dalam kehidupan Anda. Ambil foto sebuah landmark saat bepergian dan lakukan percakapan langsung tentang apa yang menarik dari landmark tersebut;
Penambahan ini menemukan tempatnya dalam lingkup apa yang disebut OpenAI sebagai GPT Vision atau GPT-V, berbeda dari GPT-5 secara teoritis, tetapi tetap merupakan langkah maju yang substansial.
Elemen-elemen ini, yang merupakan fondasi dari sebuahversi multimodal yang disempurnakan dari GPT-4 sejalan dengan teaser OpenAI sebelumnya tentang evolusi teknologi mereka di awal tahun ini.
Peningkatan yang signifikan ini menyusul peluncuran DALL-E 3 dari OpenAI, sebuah generator teks-ke-gambar yang telah mendapatkan pujian dari para penguji awal karena kualitas dan ketepatannya yang luar biasa.
Dalam konvergensi yang menarik, DALL-E 3 menemukan tempatnya dalam ChatGPT Plus, layanan berlangganan yang didukung oleh GPT-4.
Penggabungan DALL-E 3 dan percakapan suara menandakan komitmen teguh OpenAI untuk memajukan asisten AI dengan kapasitas untuk memahami dunia yang mirip dengan kognisi manusia, memanfaatkan berbagai indera untuk meningkatkan pengalaman pengguna.
Apakah Ada Risiko yang Terlibat dengan Sistem AI Multimodal yang Melibatkan Pembangkitan Visi dan Suara?
Namun, OpenAI mempertahankan sikap waspada terkait potensi bahaya yang melekat dalam meningkatkan kemampuan sistem AI multimodal yang mencakup penglihatan dan generasi suara.
Kekhawatiran terkait berkisar pada risiko peniruan, momok bias yang mengintai, dan ketergantungan yang rumit pada interpretasi visual.
Perusahaan menyatakan dalam pengumumannya:
"Tujuan OpenAI adalah membangun AGI yang aman dan bermanfaat. Kami percaya bahwa dengan menyediakan alat kami secara bertahap, kami dapat melakukan perbaikan dan menyempurnakan mitigasi risiko dari waktu ke waktu, serta mempersiapkan semua orang untuk sistem yang lebih kuat di masa depan.
Dalam sebuah langkah strategis, OpenAI telah menggambarkan rencana peluncuran fitur-fitur inovatif ini.
Dalam waktu dekat, pengguna Plus dan Enterprise akan mendapatkan akses ke kemampuan ini dalam rentang waktu dua minggu ke depan.
Selain itu, OpenAI memiliki niat untuk memperluas akses ini ke komunitas pengembang yang lebih luas di fase berikutnya.