DALL.E3は、OpenAI'が最近ChatGPTに直接画像生成を統合し、ユーザーがチャットインターフェイスを離れることなくビジュアルを作成できるようにした後、ついに引退します。
同社は火曜日、この新しいアップデートを発表し、この動きがAIツールをより身近なものにし、さまざまなメディアで汎用性を持たせるという同社の広範な目標に沿ったものであり、AIアートの分野での存在感を強めるものであると説明した。
新しいアップデートは、DALL.E 3'の画像生成モデルをベースにしている。しかし、2023年の発売以来、このAIモデルは、Flux、MidJourney v6、SD 3.5.、Redraft、Reveなどのより高度な代替品を好むAI愛好家の間で人気を維持するのに苦労していた。
以前は、OpenAI は画像生成とテキスト生成を別々にしており、GPT がテキストベースのタスクを処理し、DALL-E 3 は画像に重点を置いていました。しかし、新しいGPT-4oでは、すべてが単一のシステムに統合され、事実上DALL-E 3は廃止されました。
よりスマートで有能なモデル
GPT-4oの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、内蔵の知識とチャットのコンテキストを活用することに優れています。
これは、テキスト、画像、音声を含む複数のモダリティを統一されたフレームワークで扱うことができる「オムニ」モデルになるというOpenAIのGPT-4oのビジョンに向けた新たな一歩となる。同社によれば、GPT-4oは従来のモデルよりもはるかに高性能、高精度、高知能であるという。
オープンAIのCEOであるサム・アルトマンは、ChatGPT-4o'の新しい能力を紹介し、次のように述べた。
quot;お待たせしていることは承知していますが、それだけの価値はあると思います。これは大きな前進であり、それを説明する最善の方法は、ただそれを見せることなのです;
OpenAIはデモの中で、英語と中国語の入力で相対性理論を説明するマンガのページ、個人的な写真や実際の写真から生成されたカスタム・トレーディングカード、透明な背景で複数の画像を合成した記念硬貨、非常に長いプロンプトから作成された非常に詳細なイラストなど、いくつかのユースケースを紹介した。
アルトマンはまた、この新しい画像生成モデルの問題点をいくつか明らかにした。アルトマンは、GPT-4oの画像生成は遅いように見えるが、それは画像生成の効率よりも画像の質に重点を置いているからだと述べている。
発展の初期段階
しかし、現在我々が目にしているのはリリースの第一段階に過ぎず、新機能は順次展開される予定だ。
DALL.E 3とChatGPTの新モデルを並べると、DALL.E 3が長いローディング画面の後に完全な形で表示されるのに対し、GPT-4oはリアルタイムで上から下へと徐々に画像を表示する。
しかし、オープンAIのチームは、単なるきれいな画像ではないと強調している。新しいGPT-4oの最も先進的な部分は、彼らが知っていることを視覚化し、その情報を視覚的なイメージに変換できることだ。
この機能は、科学的な図や、正確にレンダリングされたテキストを含む情報ポスター、さらには主題の一貫性を持った画像編集など、教育分野で応用される場合に特に役立つだろう。
内蔵セーフガードと将来の拡張性
しかし、AIができるすべての新しい機能や事柄に伴い、OpenAIはディープフェイクや違法コンテンツなどの悪用を防ぐためのガードレールを実装することを忘れていない。
生成された画像には目に見える透かしは入りませんが、AIの出所を示すC2PAのメタデータが含まれます。OpenAIは画像の出所を追跡するツールも開発している。
同社はこの機能をAPIに拡張する予定であり、開発者は画像生成を自身のアプリケーションに統合することができる。さらに、OpenAIの利用規約は、プラットフォームのポリシーに従って、ユーザーが生成した画像の所有権を保持することを確認している。