ランダムな画像を入力してください。
この画像を除けば、探索可能な3D世界のすべてはAIによって生成されます。制御されたカメラ効果と調整可能なアナログの被写界深度 (DoF) を備えています。

オブジェクトの色を変えたり、背景の照明や影を動的に調整したり、シーンに他のオブジェクトを挿入することもできます。



さらに、これまでのほとんどの生成モデルはピクセルを予測しましたが、このAIシステムは直接3Dシーンを予測します。
そのため、目を離したり戻したりしてもシーンは変化せず、3D幾何学物理学の基本ルールに従います。

インターネットは爆発的に盛り上がり、コメント欄には「信じられない」という言葉が散見された。

Shopifyの創設者であるTobi Lutke氏や、その他の有名な人物によって賞賛されたものも多かった:

また、これでVRの新しい世界が一気に開けると考えるネットユーザーも多い。

公式には、「これは3Dネイティブ生成AIの未来がどうなるかのスナップショットに過ぎない」としています:
私たちは、この技術をできるだけ早くユーザーの手に渡せるように努力しています!

Fei Feifei Li氏自身が最初に結果を発表し、次のように語っています:
このアイデアをどう理論化しても、言葉で表現するのは難しい。写真や文章を通して生成された3Dシーンと対話する体験を言葉で表現するのは難しい。

ウェイトリストの募集は現在行われており、すでに利用しているコンテンツクリエイターもいます。
うらやましいよだれが目尻から抑えきれずに垂れています。

World labsは本日、空間知能に向けた最初の一歩を踏み出した、と公式ブログの投稿に書かれています:
世界ラボは本日、空間知能への第一歩を踏み出しました。
入力された画像から、すべてが生成されます。
そして、どんな画像でも入力できます。
そしてインタラクション可能な3D世界です。ユーザーはW/A/S/Dキーで上下左右の視点をコントロールしたり、マウスで画面をドラッグしたりして、生成された世界を歩き回ることができます。
公式サイトにはたくさんのデモが用意されており、ハンズオンの体験はビデオや動画で見るのとはまったく違うので、今回はぜひ試してみてほしい。
(ドライブスルーは例によって記事の最後にあります)

さて、ここで質問です。このAIシステムによって生成された3Dの世界では、他にどのようなディテールを探求する価値があるのでしょうか?
カメラ効果
一度生成されると、World Labsによると、3D世界はブラウザ上でリアルタイムにレンダリングされ、仮想カメラを見ているような印象を与えます。
そして、ユーザーはこのカメラを正確にコントロールすることができる。
これには2つの遊び方があり、
1つは被写界深度効果をシミュレートできることです。

2 つ目は、スライディング ズーム(ドリー ズーム)をシミュレートできることです。
「被写体の大きさはそのままで、背景の大きさが変化する」のが特徴です。
多くのドンキは、チベットや新疆に行くと、ヒッチコックズームを使ってビデオ撮影をしたがるが、これは視覚的に強いインパクトがある。
ワールドラボのデモでは、効果は以下のようになっています(このプレイスルーでは遠近感をコントロールする方法はありませんが):

3Dエフェクト
World Labsによると、ピクセルを予測するほとんどのジェネレーティブ モデルとは異なり、このAIは3Dシーンを予測します。
公式ブログの記事では、3つの利点が挙げられています:
第一に、永続的なリアリティ。
一度世界が生成されると、それはそこに留まります。
一度生成された世界は、そこに留まります。
元の視点からの光景が、別の視点に視線を移し、振り返ったからといって変わってしまうようなことはありません。
第二に、リアルタイム制御です。
シーンを生成した後、ユーザーはキーボードやマウスでそれをコントロールし、リアルタイムでこの3D世界を動き回ることができます。
花のディテールを精査したり、暗闇のどこからか見守ったり、神の視点から世界の一挙手一投足に注目することもできる。
第三に、適切な幾何学のルールに従うこと。
このAIシステムは、3次元集合物理学の基本ルールに従った世界を生成する。
AIが生成する動画の中には、非常にドリームコアではあるものの、私たちが行うようなリアリズムの深さはありません(doge)。
公式ブログの記事では、視覚的な3Dシーンを作成する最も簡単な方法は、深度マップを描くことだとも書かれています。
マップ内の各ピクセルの色は、カメラからの距離によって決まります。

もちろん、ユーザーは3Dシーンの構造を使って、インタラクティブなエフェクトを構築することができます。突然シーンにスポットライトを当てるなど、シーンをクリックしてインタラクティブに操作できます。

アニメーション効果?
それも簡単です。

Into the World of Painting
チームはまた、古典的な芸術作品のいくつかを「まったく新しい方法で」体験するというアイデアで遊びました。「
古典的な作品を体験する。
インタラクティブなインタラクションという点だけでなく、その1枚の絵を入力するだけで、元の絵になかった部分を埋めることができるという点でも新しい。
そしてそれは3Dの世界になる。
これはゴッホの「夜のカフェ」です。

これはエドワード・ホッパーの「夜想曲」です。
![]()
クリエイティブなワークフロー
チームは、3Dワールドの生成について次のように述べています。他のAIツールとごく自然に組み合わせることができます。
これにより、クリエイターはすでに使い慣れたツールで、新しいワークフローを体験することができます。
栗を取る:
テキストの世界からイメージの世界に来るために、テキストからグラフへのモデルを使用することから始めることができます。
異なるモデルには得意とするスタイルの特徴があるので、3Dの世界はそれらのスタイルを移行し、継承することができます。
同じプロンプトで、異なるスタイルの Vincentian グラフィカル モデルによって生成された画像を入力すると、異なる 3D 世界が生まれます:
生き生きとした漫画スタイルのティーンエイジャーの寝室。ベッドはカラフルな毛布で覆われ、机の上にはコンピューターが散乱し、壁にはポスターが掛けられ、スポーツ用品が散乱している。壁にはギターがもたれかかり、中央には居心地のいい花柄のラグが敷かれている。窓から差し込む光が部屋に暖かさと若々しさを添えている。
ワールド・ラボと空間知能
「ワールド・ラボ」は、スタンフォード大学教授でAIの名付け親でもあるスタンフォード大学教授でAIの名付け親でもあるフェイフェイ・リーが今年4月に設立した会社だ。
明かされたように、彼女にとって初めてのスタートアップでもあった。
そして、彼女のスタートアップの方向性は、新しいコンセプトである空間知能であり、
視覚化が洞察になり、見ることが理解になり、理解が行動につながる。理解は行動につながる。
Feifei Liにとって、これは「AIのパズルを解くための重要なピース」です。

わずか3ヶ月で、同社は評価額10億ドルを突破し、新たにユニコーンになりました。
公開されている情報では、a16z、NEA、Radical Venturesがリードインベスターで、Adobe、AMD、Databricks、Old YellowのNVIDIAも投資家として名を連ねている。
個人投資家の中にも、カルパシー、ジェフ・ディーン、ヒントン......
今年5月、フェイフェイ・リーは15分間のTED公開トークを行った。
視覚化する能力は、カンブリア爆発(動物種が化石記録に大量に出現した時期)を引き起こしたと考えられている。を引き起こしたと考えられている。最初は受動的な経験であり、単に方向づけのために光を取り入れるだけだったものが、やがてより能動的になり、神経系が進化し始めた......こうした変化が知性を生み出したのである。
私は何年もの間、写真を撮ることと理解することは同じではないと言い続けてきた。今日、もうひとつ付け加えたいのは、ただ見るだけでは不十分ということだ。行動し、学ぶために見る。
AIに現在の能力を超えてほしいのであれば、私たちはただ見て話せるAIを望んでいるのではなく、行動できるAIを望んでいるのです。空間知能における最新のマイルストーンは、コンピュータに、見て、学び、行動し、よりよく見て行動することを学ぶように教えることです。
空間知能の加速度的な進歩により、この好循環の中で新しい時代が目の前で展開されています。このサイクルは、3D世界を理解し、相互作用する必要のある、具現化された知能システムの重要な構成要素である、ロボットの学習を促進します。
同社のターゲット顧客には、ビデオゲーム開発者や映画スタジオが含まれると言われています。インタラクティブなシナリオに加えて、World Labsは、アーティスト、デザイナー、開発者、映画制作者、エンジニアなどの専門家にとって有用なツールを開発する予定です。
現在、Space Intelligenceの最初のプロジェクトがリリースされ、彼らがやろうとしていることがより具体的になってきている。
しかしWorld Labsは、現在のリリースは「初期のプレビュー」に過ぎないと述べています:
私たちは、私たちが生成する世界のスケールと忠実度を向上させ、ユーザーがよりアクセスしやすくするための新しい方法を試すために努力しています。そして、ユーザーがそれとインタラクトするための新しい方法を試しています。
参考リンク:
[1]https://www.worldlabs.ai/blog
[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN
[3]https://x.com/theworldlabs/status/1863617989549109328
。