2024년 초, OpenAI는 비디오 생성 모델인 Sora라는 또 하나의 AI 폭탄을 세상에 떨어뜨렸습니다.
1년 전처럼 의 ChatGPT와 마찬가지로 Sora는 일반 인공 지능(AGI)의 또 다른 획기적인 순간으로 꼽힙니다.
"소라는 AGI 실현이 10년에서 1년으로 단축될 것"이라고 360의 저우홍이 회장은 예측했습니다.
그러나 이 모델이 놀라운 이유는 단순히 AI가 생성한 동영상이 더 길고 선명하다는 것뿐만 아니라 OpenAI가 실제 물리적 세계와 관련된 동영상 콘텐츠를 생성하는 데 있어 과거의 모든 AIGC의 능력을 뛰어넘었기 때문입니다.
무의미한 사이버 펑크도 멋지지만, 더 의미 있는 것은 현실 세계의 모든 것을 AI로 재현할 수 있다는 점입니다.
이를 위해 OpenAI는 새로운 개념인 월드 시뮬레이터를 고안했습니다.
오픈AI의 공식 기술 보고서에서 소라는 "월드 시뮬레이터 역할을 하는 비디오 생성 모델"로 포지셔닝되며, "우리의 연구 결과는 다음과 같이 제안합니다. 비디오 생성 모델을 확장하는 것은 물리적 세계의 범용 시뮬레이터를 구축할 수 있는 실행 가능한 경로입니다."라고 설명합니다.
![](https://img.jinse.cn/7179627_image3.png)
(출처: OpenAI 웹사이트)
OpenAI는 소라가 실제 모델을 이해하고 시뮬레이션할 수 있는 기반을 마련했으며, 이것이 AGI 구현의 주요한 이정표가 될 것이라고 믿습니다. 이를 통해 AI 비디오 트랙에서 런웨이와 피카와 같은 세그먼트에서 완전히 멀어지게 되었습니다.
![](https://img.jinse.cn/7179628_image3.png)
텍스트(ChatGPT)에서 이미지( DALL-E)에서 영상(소라)에 이르기까지, OpenAI에게 있어 이는 마치 이미지라는 매체를 통해 가상과 현실의 경계를 허물고 영화 '탑건'의 존재가 되는 직소 퍼즐 조각을 모으는 것과 같습니다.
애플의 비전 프로가 탑건의 하드웨어적 표현이라면, 시뮬레이션된 가상 세계를 자동으로 구축하는 AI 시스템은 그 영혼입니다.
"언어 모델은 인간의 뇌를, 비디오 모델은 물리적 세계를 근사화합니다."라고 에든버러 대학교의 박사 과정 학생인 야오 푸는 말합니다.
"OpenAI의 야망은 누구도 상상할 수 없을 만큼 크지만, 이 회사만이 할 수 있는 것 같습니다."라고 여러 AI 기업가들이 라이트 콘 인텔리전스에게 외쳤습니다.
소라는 어떻게 '월드 시뮬레이터'가 되었을까요?
오픈AI가 새롭게 출시한 소라 모델은 2024년 AI 비디오 트랙의 문을 활짝 열며 2023년 이전의 세계와 선을 긋고 있습니다.
라이트 콘 인텔리전스는 이번에 공개한 48개의 데모 동영상을 통해 보다 선명한 프레임 생성, 보다 생생한 생성, 보다 정확한 이해, 보다 매끄러운 논리적 이해, 보다 안정적이고 일관된 생성 결과 등 과거 AI 비디오가 비판받았던 대부분의 문제가 해결되었음을 확인할 수 있었습니다.
그러나 이 모든 것은 OpenAI가 처음부터 비디오가 아닌 모든 존재를 목표로 삼았기 때문에 이것은 빙산의 일각에 불과합니다.
이미지는 더 큰 개념이며, 비디오는 그 하위 집합으로 길거리의 큰 화면, 게임 세계의 가상 장면 등이 있습니다. '월드 시뮬레이터'라는 개념이 바로 OpenAI가 시도하는 것입니다.
AI 영화 '원더랜드 오브 더 마운틴 앤 시즈'의 프로듀서인 쿤 첸은 라이트 콘 인텔리전스와의 인터뷰에서 "OpenAI는 비디오 측면에서 무엇을 할 수 있는지 보여주고 있지만 실제 목적은 사람들의 피드백 데이터를 확보하여 사람들이 어떤 종류의 비디오를 생성하고 싶어하는지 탐색하고 예측하는 데에 있습니다. 사람들이 어떤 종류의 동영상을 생성하고 싶어하는지 알아내는 것입니다. 빅 모델 트레이닝과 마찬가지로, 이 도구가 오픈되면 전 세계 사람들이 지속적으로 태그를 지정하고 기록함으로써 월드 모델을 점점 더 스마트하게 만드는 것과 같습니다."
따라서 AI 비디오는 물리적 세계를 이해하는 첫 번째 단계에서는 '비디오 생성 모델'로서의 속성을 강조하고, 두 번째 단계에서야 '월드 시뮬레이터'로 사용할 수 있다는 것을 알 수 있습니다. "월드 시뮬레이터".
소라의 '동영상 생성' 속성을 파악하는 핵심은 소라와 런웨이, 런웨이와 세계 사이의 차이점을 찾는 것입니다. 소라가 런웨이와 피카와 다른 점은 무엇일까요? 이 질문이 중요한 이유는 부분적으로 소라가 성공하는 이유를 설명하기 때문입니다.
먼저, OpenAI는 대규모 시각 데이터를 사용하여 일반적인 기능을 갖춘 생성 모델을 학습시키는 대규모 언어 모델 학습이라는 아이디어를 따릅니다.
빈센트 비디오 공간의 '전문화된' 로직과는 완전히 다른 방식입니다. 작년에 런웨이는 '유니버설 월드 모델'이라는 비슷한 프로젝트를 진행했지만, 크게 성공하지 못했는데 이번에는 소라가 한 발 앞서서 런웨이의 꿈을 실현한 것입니다.
뉴욕대학교 시에 사이닝 조교수의 예상에 따르면, 소라의 참여 규모는 약 30억으로 GPT 모델에 비하면 미미한 수준이지만 런웨이와 피카 등 일부 기업의 규모를 훨씬 뛰어넘는 것으로, 차원이 다른 타격이라고 할 수 있습니다.
완싱 테크놀로지의 AI 혁신 센터 총괄 매니저인 치 보링취안은 소라의 성공이 "엄청난 노력을 통한 기적"의 가능성을 다시 한 번 입증했다고 말했습니다. 그는 "소라는 여전히 대량의 데이터, 대량의 모델, 대량의 연산 능력에 의존하는 OpenAI의 확장 법칙을 따르고 있다"며 "소라의 기본 레이어는 게임, 드론, 로봇 공학에서 검증된 세계 모델을 사용해 세계를 시뮬레이션할 수 있는 빈센 비디오 모델을 구축한다"고 설명했습니다.
두 번째로, 소라에서는 처음으로 확산 모델과 빅 모델 기능의 완벽한 융합이 시연됩니다.
AI 영상은 대본과 특수 효과라는 두 가지 중요한 요소에 따라 블록버스터 영화와 같습니다. 스크립트는 AI 영상 생성 과정의 '로직'에 해당하고, 특수 효과는 '효과'에 해당합니다. '로직'과 '효과'를 구현하기 위해 확산 모델과 대형 모델이라는 두 가지 기술 경로가 있습니다.
작년 말 라이트콘 인텔리전스는 효과와 로직을 모두 만족시키기 위해 확산 모델과 대형 모델의 두 가지 경로가 결국 수렴할 것이라고 예측했습니다. OpenAI가 이 문제를 이렇게 빨리 해결할 것이라고는 예상하지 못했습니다.
![](https://img.jinse.cn/7179629_image3.png)
(이미지 출처: OpenAI 공식 웹사이트)
OpenAI는 기술 보고서에서 "다양한 유형의 시각 데이터를 통합된 표현으로 변환하는 우리의 접근 방식은 다음과 같이 주목할 만하다. 제너레이티브 모델의 대규모 학습에 사용할 수 있습니다."라고 강조했습니다.
특히 OpenAI는 비디오 프레임의 각 프레임을 개별 시각적 패치로 인코딩하며, 각 패치는 GPT의 토큰과 유사하며 비디오, 이미지에서 가장 작은 측정 단위가 되어 언제 어디서든 분할하고 재구성할 수 있습니다. 데이터를 통합하고, 지표를 통합하고, 확산 모델과 빅 모델 사이의 다리를 찾는 방법을 찾아야 합니다.
생성 전 과정에서 확산 모델은 여전히 빅 모델 트랜스포머의 관심도 증가 메커니즘의 일부 효과를 생성하는 역할을 담당하고 있으며, 생성 예측, 추론 능력이 더 높아져 소라는 기존에 획득한 정지 이미지에서 영상을 생성할 수 있을 뿐만 아니라 다음을 수행할 수 있습니다. 기존 영상을 확장하거나 누락된 프레임을 채울 수도 있습니다.
현재까지 비디오 모델의 발전은 융합을 향해 나아가는 추세로, 기술 역시 합성 쪽으로 나아가고 있습니다.
기존에 축적된 기술을 시각 모델에 적용하는 것도 OpenAI의 장점이 되고 있습니다. 소라웬셩 영상 학습 과정에서 OpenAI는 DALL-E3와 GPT의 언어 이해 능력을 도입했습니다. OpenAI에 따르면, DALL-E3와 GPT를 기반으로 한 학습을 통해 Sora는 사용자의 지시를 정확하게 따라 고품질의 동영상을 생성할 수 있게 되었습니다.
이러한 조합의 결과로 월드 시뮬레이터의 기반이 되는 시뮬레이션 기능이 등장했습니다.
"우리는 비디오 모델이 대규모로 훈련할 때 여러 가지 흥미로운 새로운 기능을 발휘한다는 사실을 발견했습니다. 이러한 기능을 통해 Sora는 실제 세계의 사람, 동물, 환경의 특정 측면을 시뮬레이션할 수 있습니다. 이러한 속성은 3D, 물체 등에 대한 명시적인 환원적 편향 없이 순전히 규모에 따른 현상입니다."라고 OpenAI는 말합니다.
'시뮬레이션'이 폭발적으로 증가하는 근본적인 이유는 큰 모델에 존재하지 않는 것을 만들어내는 것이 일반적이지만, 예를 들어 힘이 서로 상호작용하는 방식, 마찰이 발생하는 방식, 농구공이 만들어지는 방식 등 물리적 세계의 작동 논리를 정확히 이해할 수 있기 때문입니다. 하지만 물리적 세계가 어떻게 작동하는지, 힘이 어떻게 상호작용하는지, 마찰이 어떻게 만들어지는지, 농구공이 어떻게 포물선을 그리는지 등의 논리를 이해하는 것은 이전에는 어떤 모델도 할 수 없었던 일이며, 이는 영상 생성 수준을 넘어 근본적으로 소라를 중요하게 만드는 이유이기도 합니다.
데모에서 완제품으로의 전환은 놀라움이나 충격이 될 수 있으며, Meta의 수석 과학자인 리쿤 양은 "단순히 큐에 따라 사실적인 비디오를 생성할 수 있다고 해서 시스템이 실제 세계를 이해하고 있다는 것을 보여주지는 않습니다."라며 Sora에 직접 도전장을 던졌습니다. 세계. 생성 모델은 실제 세계의 인과관계를 이해하고 모델링할 필요 없이 가능성 공간에서 합리적인 샘플만 찾으면 되는 세계 모델에 기반한 인과관계 예측과 생성 과정이 다릅니다."라고 말했습니다.
치 보링취안은 또한 OpenAI가 월드 모델 기반의 생성적 비디오 매크로 모델링이 가능하다는 것을 검증했지만 물리적 상호작용의 정확도에는 어려움이 있으며, 소라가 일부 기본적인 물리적 상호작용을 시뮬레이션할 수는 있지만 더 복잡한 물리적 현상, 장기적인 의존성을 다루는 데는 어려움을 겪을 수 있다고 말했습니다. 관계 처리, 즉 시간적 일관성과 논리를 유지하는 방법, 공간적 디테일의 정확성, 공간적 디테일 처리의 정밀도가 부족하면 영상 콘텐츠의 정확성과 신뢰성에 영향을 미칠 수 있는 문제점이 있습니다.
동영상, 그 이상의 가치
소라가 된 월드 시뮬레이터가 등장한 지는 오래되었지만, 동영상 제작이라는 측면에서는 이미 지금 이 순간에도 전 세계에 영향을 미치고 있습니다.
첫 번째 범주는 기존 기술로는 해결할 수 없었던 문제를 해결하고 일부 산업을 다음 단계로 끌어올리는 것입니다.
가장 대표적인 것이 영화 및 TV 제작 산업인데, 이번에 소라가 보여준 가장 혁신적인 능력은 1분이라는 최장 길이의 동영상을 생성하는 것입니다. 참고로 피카가 생성하는 영상의 길이는 3초, 런웨이의 2세대인 젠2의 길이는 18초로, 소라를 통해 AI 영상이 실질적인 생산성이 되고 비용 절감과 효율화를 달성할 수 있을 것으로 기대됩니다.
쿤 첸은 소라가 탄생하기 전에는 공상 과학 영화 제작에 AI 비디오 도구를 사용하는 비용이 절반으로 떨어졌지만, 소라가 출시된 후에는 그 비용이 더욱 낮아졌다고 라이트 콘 인텔리전스에 말했습니다.
소라가 공개된 후 그가 가장 인상 깊었던 것은 돌고래가 자전거를 타는 데모였습니다. 그 영상에서 상체는 돌고래, 하체는 사람의 두 다리, 다리에는 신발이 달린, 매우 기괴한 스타일의 그림으로 돌고래가 사람처럼 자전거 타는 동작을 완성해 냈습니다.
![](https://img.jinse.cn/7179630_image3.png)
"정말 놀랍습니다! 정말 놀랍습니다! 이 이미지는 상상력이 풍부하고 물리 법칙에 부합하는 부조리한 느낌을 주며, 감각적이면서도 예상치 못한 작품으로 관객들이 감탄할 수 있는 영화와 텔레비전 작품입니다."라고 첸쿤은 말했습니다.
첸쿤은 소라가 모든 콘텐츠 크리에이터의 문턱을 낮추는 스마트폰, 지터버그와 같은 존재가 될 것이라고 믿으며, 콘텐츠 크리에이터의 규모 증폭 순서에 따라 문턱을 낮추는 역할을 할 것이라고 말합니다.
"앞으로 콘텐츠 제작자는 촬영할 필요도 없이 문단이나 단어 하나만 말하면 머릿속의 독특한 아이디어를 표현할 수 있고 더 많은 사람들에게 보여질 수 있습니다. 그때는 지터벅보다 더 큰 새로운 플랫폼이 등장할 가능성도 있다고 생각합니다. 한 걸음 더 나아가 소라가 모든 사람의 무의식적인 생각을 이해하고, 사용자가 적극적으로 표현하려고 하지 않아도 자동으로 콘텐츠를 생성하고 만들어낼 수 있을 것입니다." 첸쿤의 설명입니다.
게임에서도 마찬가지입니다. OpenAI 기술 보고서의 마지막에는 "소라는 기본적인 전략을 통해 마인크래프트의 플레이어를 동시에 제어할 수 있는 동시에 세계와 그 역학을 충실하게 렌더링합니다. 소라의 프롬프트 크레딧에 'Minecraft'를 언급하면 이러한 기능에 영감을 준 것에 대해 자세히 알아볼 수 있습니다."
![](https://img.jinse.cn/7179631_image3.png)
AI 게임 기업가인 Xi Chen은 다음과 같이 말했습니다.
"이 글을 읽는 게임 종사자라면 식은땀을 흘릴 것입니다! OpenAI는 그 야망을 가감 없이 드러냈습니다." Chen Xi의 해석과 분석에 따르면, 이 짧은 문장은 두 가지를 전달합니다.소라는 게임 캐릭터를 제어할 수 있으며 동시에 게임 환경을 렌더링할 수 있습니다.
"OpenAI의 말처럼, 소라는 시뮬레이터이자 게임 엔진이며 상상과 현실 세계를 이어주는 번역 인터페이스입니다. 게임의 미래는 말만 하면 이미지를 렌더링할 수 있는 것입니다. 이제 sora는 1분짜리 세계를 구축하는 방법을 학습하고 캐릭터도 생성하며, 자체 GPT-5를 통해 수천 평방킬로미터에 걸쳐 모든 색상의 생물이 활동하는 순수 AI 생성 지도를 더 이상 기발하게 들리지 않게 만들었습니다. 물론 그래픽이 실시간으로 생성될 수 있는지 여부와 온라인 멀티플레이어 지원 여부는 매우 현실적인 문제입니다. 하지만 어느 쪽이든 새로운 게임 모드가 곧 출시될 예정이고, 적어도 소라를 이용해 '미녀에 둘러싸인 나'를 만드는 것은 더 이상 어려운 일이 아닙니다."라고 Chen Xi는 말합니다.
두 번째 카테고리는 세상을 시뮬레이션하고 더 많은 영역에서 새로운 것을 창조할 수 있는 능력에 기반합니다.
에든버러 대학교의 박사 과정 학생인 야오 푸는 "생성 모델은 데이터 자체를 기억하는 것이 아니라 데이터를 생성하기 위한 알고리즘을 학습합니다. 언어 모델이 (뇌에서) 언어를 생성하는 알고리즘을 인코딩하는 것처럼, 비디오 모델은 비디오 스트림을 생성하는 물리적 엔진을 인코딩합니다. 언어 모델은 인간의 두뇌를 근사화하는 반면, 비디오 모델은 물리적 세계를 근사화하는 것으로 생각할 수 있습니다."
물리 세계의 보편적인 법칙을 학습하면 구현된 지능도 인간의 지능에 더 가까워집니다.
예를 들어, 로봇 공학 분야에서 이전에는 로봇 두뇌에 악수 명령을 내린 다음 이를 손에 전달하는 방식이었지만 로봇은 '악수'의 의미를 제대로 이해할 수 없었기 때문에 명령을 다음과 같이 해석할 수 밖에 없었습니다. "손의 지름이 몇 센티미터로 줄어든다"로만 해석할 수 있었습니다. 월드 시뮬레이터가 현실화되면 로봇은 명령 번역 과정을 건너뛰고 한 번에 인간의 명령 요구를 이해할 수 있게 됩니다.
트랜스 디멘셔널 인텔리전스의 설립자이자 사우스 차이나 공과대학교의 교수인 지아 쿠이(Jia Kui)는 라이트 콘 인텔리전스에 명시적 물리 시뮬레이션이 향후 로봇 공학에 적용될 수 있다고 말하며 "소라의 물리 시뮬레이션은 암묵적이며 물리 세계에 대한 내부 이해만으로 어떻게 로봇이 작동하는지 보여줍니다. 이해와 시뮬레이션만으로 효과를 낼 수 있으며, 로봇에 직접적으로 유용하기 위해서는 명시적인 것이 더 낫다고 생각합니다."라고 말했습니다.
"소라의 기능은 방대한 양의 비디오 데이터와 리캡처링 기술을 통해 구현되었으며, 물리적으로 시뮬레이션된 것은 물론 3D로 명시적으로 모델링된 것도 아닙니다. 생성된 효과는 물리적 시뮬레이션을 통해 얻을 수 있는 것과 최대한 가깝거나 비슷합니다. 하지만 물리 엔진은 단순히 영상을 생성하는 것 외에도 로봇을 훈련시키기 위해 반드시 필요한 다른 요소들이 많이 있습니다."라고 Jacqui는 말합니다.
소라에는 아직 많은 한계가 있지만 가상 세계와 현실 세계 사이에 연결 고리가 만들어져 탑건 스타일의 가상 세계와 인간과 더 닮은 로봇 모두에 더 큰 가능성이 열렸습니다.