OpenAIは、ChatGPT PlusおよびTeamsユーザー向けにアドバンスド・ボイス・モードを発表し、音声機能を強化しています。
この待望の機能は、ユーザーとチャットボットとのやりとりを、より自然な会話体験に変えることを約束する。
OpenAIの最新モデルであるGPT-4oを搭載した音声モードは、テキスト、視覚、音声を統合し、より迅速でスムーズなやり取りを実現する。
OpenAIが公式ツイートで発表した:
アドバンスド・ボイスは、今週中にChatGPTアプリのすべてのPlusおよびTeamユーザーに提供されます;
彼らはまた、この機能の面白い面を強調し、50以上の言語で「遅れてすみません」と言うことができると述べた。
シームレスな会話への一歩
OpenAIは、高度な音声機能が同社のプレミアムサービスのユーザー向けに利用可能になったことを確認した。
この技術革新により、ユーザーはよりダイナミックな会話ができるようになり、全体的なインタラクティブ体験が向上した。
しかし、EU、アイスランド、リヒテンシュタイン、ノルウェー、スイス、英国のユーザーにはまだアクセスできず、地理的な格差が生じている。
当初5月に発表された新ボイス機能は、2013年の映画 "Her "のスカーレット・ヨハンソンの声に酷似したSkyというボイスオプションによって大きな注目を集めた。
この発覚を受けて、ヨハンソンの法律代理人はOpenAIに書簡を送り、同社には彼女とよく似た声を使用する権利がないと主張した。
その結果、CNBCが報じたように、OpenAIは自社製品での音声の使用を中止した。
より豊かな音声体験
最初の発表から数ヶ月間、ユーザーは無料層で様々な音声を使ってChatGPTと対話することができた。
しかし、上級バージョンでは応答性が大幅に改善され、会話の途中で中断されても一時停止して聞くことができる。
現在、ユーザーは9つの異なる音声から選ぶことができ、アプリの設定から体験をカスタマイズすることができる。
オープンエイの共同設立者兼CEOのサム・アルトマンは、Xへの投稿で「待った甲斐があったと思ってもらえると嬉しい」と述べ、この機能への期待を反映した。
競争が激化する中、OpenAIは急速に進化するジェネレーティブAIの世界に身を置いている。
グーグルは最近、アンドロイド端末でジェミニ・ライブ音声機能を開始し、メタはフェイスブックやインスタグラムなどのプラットフォームからアクセスできる有名人の音声を発表する予定だ。
新機能のナビゲート
OpenAIのAdvanced Voice Modeは、Plus、Team、Enterpriseプランの加入者のみが利用可能で、Plusプランは月額20ドルから。
この新機能を利用するには、最新バージョンのChatGPTアプリをデバイスにインストールしておく必要があります。
アクセスが許可されると、アプリ内に通知が表示され、ユーザーに手続きを促す。
ボイスチャットを開始するには、ユーザーは右にスワイプするか、アプリの左上隅にある2本線のアイコンをタップして新しいチャットを作成する。
メッセージのテキストフィールドとマイクアイコンの横に音波のアイコンが表示され、音声機能の準備が整ったことを示します。
アイコンをタップすると、「バンプ」という短い音が準備完了を知らせ、画面上の円が青と白のダイナミックなアニメーションに変わる。
ユーザーは話し始めることができ、迅速な返答を期待することができる。
OpenAIは、様々な外国語のアクセントを改善し、会話のスピードを向上させることに成功した。
ユーザーが配信内容の変更を希望する場合、ChatGPTに話し方を速くしたり、南部訛りにするなどの修正をリクエストすることができる。
制限と使用例
高度な音声モードにより、ChatGPTは、就寝前の物語のナレーションから、就職面接の準備や外国語の練習まで、様々なタスクでユーザーを支援することができる。
ただし、有料会員であっても使用量に制限があることに留意する必要がある。
約30分のインタラクションの後、画面下部に「残り15分」という通知が表示され、この機能へのアクセス範囲に疑問が呈される。
OpenAIが革新と機能拡張を続ける中、アドバンスド音声モードの導入は、AIとの対話をより魅力的でリアルなものにするための重要な一歩を意味する。