OpenAIのChatGPT は、ユーザーとのインタラクションを再定義する、革新的な新機能の数々を導入しようとしている。
において9月25日に公式ブログで発表された。 OpenAIは、画像と音声認識というダイナミックな媒体を通じて、ユーザーがChatGPTと関わることを可能にする、今後の機能拡張を明らかにした。
今回のアップグレードの目玉のひとつは、ユーザーが音声コマンドを使ってChatGPTと対話できる機能で、よりパーソナライズされた没入感のあるユーザー体験を約束する。
この機能は、プロの声優が作成した最小限のサンプル音声に基づいて音声を生成することに長けた音声合成モデルからその力を引き出している。
Whisperとして知られるオープンソースの音声認識システムが、この革新的な音声インターフェースに不可欠な役割を果たしていることは注目に値する。
これらの音声機能の潜在的な用途は、興味深いと同時に多様である。
就寝前の読み聞かせやレシピ作りから、スピーチの作成、詩の朗読、常套句の解明、さらには食卓での議論の仲裁に至るまで、ユーザーはより幅広い使用例を想定することができる;
OpenAI'のビジョンは明確で、個人が日常生活でテクノロジーと接する方法を強化し、豊かにすることである。
さらにOpenAIは、ChatGPTに画像を送信して解釈と応答を求めたり、画像内の特定の要素を選択的にハイライトして詳細な調査を行ったりする機能をユーザーに提供する準備を進めている。
同社によれば
「音声と画像で、ChatGPTの使い方が広がります。旅行中にランドマークをスナップして、何が面白いかをライブで会話しましょう;
これらの追加は、OpenAIがGPT VisionまたはGPT-Vと呼ぶ範囲に位置づけられ、理論的なGPT-5とは異なるが、それでも実質的な前進である。
これらの要素は、"侍ジャパン "の根幹をなすものである。GPT-4の拡張マルチモーダル版 今年初めにOpenAIが予告していた技術の進化と一致している。
この大幅なアップグレードは、OpenAIが発表したDALL-E 3に続くものである。DALL-E 3は、その卓越した品質と精度で初期のテスターから賞賛を集めたテキスト画像ジェネレーターである。
DALL-E 3は、GPT-4に支えられたサブスクリプション・サービス、ChatGPT Plusの中にその居場所を見つけた。
DALL-E 3と会話型ボイスチャットの融合は、OpenAI'が、人間の認知に近い世界を認識する能力を持つAIアシスタントを進化させ、ユーザー体験を向上させるために複数の感覚を活用することへの確固としたコミットメントを示すものです。
視覚と音声生成を含むマルチモーダルAIシステムにリスクはあるか?
しかし、OpenAIは、視覚と音声生成の両方を含むマルチモーダルAIシステムの能力を強化することに内在する潜在的な危険性について、警戒する姿勢を維持している。
適切な懸念は、なりすましの危険性、潜むバイアスの恐怖、視覚的解釈への複雑な依存を中心に展開される。
同社は発表の中で次のように述べている:
「OpenAIの目標は、安全で有益なAGIを構築することです。私たちは、ツールを徐々に利用できるようにすることを信じています。そうすることで、時間をかけて改良を加え、リスクを軽減することができます;
戦略的な動きとして、OpenAIはこれらの革新的な機能の展開計画を明確にした。
当面、PlusとEnterpriseのユーザーには、今後2週間以内にこれらの機能へのアクセスが許可される。
さらにOpenAIは、このアクセスをより広範な開発者コミュニティに拡大する意向を持っている。