저자: 조시, 출처: 뉴긱
2일 전 외신에서 소라의 핵심 팀과 인터뷰를 했는데, 원본 영상을 본 후 그들은 전혀 말이 없었고, 장면은 국가발전개혁위원회(NDRC) 마 주임의 연설과 비슷했다.
한 네티즌의 말을 빌리자면, 마치 카메라 밖의 변호사가 변호사가 갱단에게 총을 들고 있는 것 같다고 합니다.
소라가 개봉한 지 거의 한 달이 지났습니다. 소라는 사람들에게 무한한 상상력을 불러일으킨 놀랍고 놀라운 기기이며, 많은 사람들이 곧 AGI가 올 것이라고 말하기도 했습니다.
그러나 지금까지 소수의 사람들만 소라를 사용했고, 충분히 좋은 것을 사용하지 못하면 시간이 지나면 흥미를 잃게 됩니다.
사람들이 소라에 대해 더 이상 할 이야기가 없다는 듯이 이야기할 때쯤, OpenAI는 몇 사람을 보내 인터뷰를 진행했습니다.
16분 동안 진행된 인터뷰에서 Sora 팀원들은 많은 이야기를 했지만, 모두 알려진 내용이고 새로운 내용은 없었으며, Sora의 기술 문서만큼 많은 정보를 제공하지는 못했습니다.
외국인이 태극권을 어떻게 하는지 직접 보러 오세요.
이 인터뷰에 참여한 세 명의 핵심 소라 멤버는 빌 피블스, 팀 브룩스, 아디트야 라메쉬입니다.
먼저 모두가 궁금해하는 질문은 언제쯤 공개될까요? 소라는 언제 출시되나요?
"걱정하지 마세요,일반 대중에게 곧 제공되지는 않을 것입니다. "
소라 멤버들은 소라가 아직 대중에게 공개되지 않았으며 언제 공개될지 구체적인 일정이 정해지지 않았다고 말했습니다. OpenAI는 사용자 피드백을 수집하는 단계에 있으며 사람들이 소라를 어떻게 사용하고 있는지, 어떤 보안 작업을 하고 있는지에 대해 더 이야기하고 싶다고 말했습니다.
사용할 수 없으니 Sora가 어떻게 구현되는지 살펴보세요. 가 어떻게 구현되는지 살펴보세요.
Sora는 대량의 동영상 데이터를 분석하고 학습하여 동영상을 생성하는 동영상 생성 모델이라고 Sora 팀은 말합니다. 구체적인 작동 방식은 확산 모델(예: DALL-E)과 대규모 언어 모델(예: GPT 제품군)의 기술을 통합합니다. Sora의 아키텍처는 DALL-E와 유사한 학습을 수행하지만 GPT와 더 유사한 구조로 되어 있어 그 중간에 있는 것과 비슷합니다.
GPT와 더 유사한 구조로 되어 있다는 사실은 Sora가 처음 등장한 이후 많은 사람들이 분석해 왔으며, Sora의 주요 기술적 특징 중 하나입니다.
다음으로, 마찬가지로 흥미로운 점은 Sora의 훈련 데이터의 출처가 어디일까요?
커피잔 속의 해적선이나 도쿄 거리를 걷는 여성 등 Sora가 생성한 공식 영상에서 볼 수 있듯이, 소라는 세상의 많은 물리 법칙을 이해하고 있는 것으로 보입니다.
이전에는 소라가 UE5로 생성한 텍스트와 영상을 합성 데이터로 데이터세트에 추가했을 가능성이 높다는 의견이 많았습니다.
이 같은 의문에 직면했을 때, 소라의 멤버인 Tim 브룩스는 명확한 답변을 하지 않고 조심스러운 태도를 취하며 너무 자세히 설명할 수 없다고 말했지만, 대체로 공개적으로 사용 가능한 데이터와 OpenAI의 사용 허가를 받은 데이터를 사용했으며 "기술 혁신"을 공유했다고 밝혔습니다.
이전에는 이미지나 동영상에 대한 생성 모델은 일반적으로 단일 해상도 동영상과 같이 매우 고정된 크기로 학습되었습니다.
소라의 훈련에서는 가로 세로 비율, 길이, HD 또는 저화질 등 다양한 이미지와 동영상을 촬영하여 한 입 크기의 덩어리로 분할했습니다. 연구진은 입력된 영상의 크기에 따라 서로 다른 수의 청크를 인식하도록 모델을 훈련시켰으며, 이를 통해 Sora는 다양한 데이터에서 학습하고 다양한 해상도와 크기의 콘텐츠를 생성할 수 있는 유연성을 확보할 수 있었습니다.
Sora의 기술 문서에도 언급되어 있는 이 기술을 패칭이라고 하는데, 빅 언어 모델은 텍스트를 토큰으로 모델링하고 빅 비디오 모델의 경우 토큰이 바로 패치입니다.
이 기법은 OpenAI에서 만든 것이 아닙니다. 이 기술은 OpenAI가 만든 것이 아니며, OpenAI가 이 기술을 사용했다고 발표하자 왜 다른 사람의 기술을 사용하여 좋은 AI 제품을 만들 수 있는지에 대한 논의가 벌어졌습니다.
사회자는 다음과 같이 질문했습니다. 소라의 장점은 무엇이라고 생각하시나요? 아직 부족한 부분은 무엇인가요? 예를 들어 한 손에 손가락이 6개인 영상을 본 적이 있습니다.
Sora 팀은 이렇게 말했습니다. Sora는 실사 동영상에 특화되어 있으며 1분 길이의 동영상 제작에 강점이 있습니다. 하지만 모든 AI의 악몽인 손 디테일, 카메라 트랙, 물리 현상 변화 등 몇 가지 문제가 여전히 남아 있습니다.
이 외에도 소라 팀은 프롬프트를 제외한 비디오 합성으로 동영상을 생성하는 등 몇 가지 멋진 기능을 도입했습니다. 이를 통해 완전히 다른 주제와 장면으로 구성된 동영상 간에 매끄러운 전환이 가능합니다.
콜로세움으로 변한 산호초 사이를 나비로 변한 드론이 날아다니는 OpenAI의 틱톡 영상이 있습니다.
기술적으로나 경험적으로 완전히 다른 동영상 생성 모델이며, Aditya Ramesh는 드론이 하는 일은 자연을 모방하고 그것을 초월하는 것이라고까지 말했습니다!
지금까지 Tiktok에서 OpenAI가 생성한 동영상은 AI가 원활하게 사운드를 생성하는 대신 음성 해설을 사용했으며, Sora 팀은 AI 사운드는 현재 고려하고 있는 사항이 아니라 더 긴 길이, 더 나은 화질, 더 높은 주파수를 달성하도록 동영상을 생성하는 데 우선순위를 두고 있다고 말합니다. 주파수.
하지만 Pika 음향 효과 기능의 출시와 함께 소라 플러스 사운드가 곧 출시될지 여부는 알 수 없습니다.
소라의 다음 계획이 무엇이냐는 진행자의 질문에? Sora의 멤버인 팀 브룩스는 Sora가 출시되기 전에 해야 할 일이 두 가지가 있다고 말했습니다:
첫 번째는 사용자들로부터 Sora가 사람들에게 어떤 가치를 제공하는지에 대한 피드백을 더 많이 받는 것입니다. 예를 들어, 일부 사용자는 프롬프트뿐만 아니라 자신이 생성한 동영상을 보다 세밀하고 직접적으로 제어하기를 원합니다.
다른 한편으로, Sora 보안을 강화해야 하며 OpenAI는 가능한 모든 영향 범위를 고려할 것입니다. 현재 동영상에 적용된 추적성 분류기를 학습시켜 AI에 의해 생성된 동영상인지 아닌지를 식별할 수 있도록 하고 있으며, 모든 소라 생성 동영상에는 워터마킹을 적용하고 있습니다.
또한, 소라 팀은 AI로 생성된 영상은 아이디어에서 완성된 영화에 이르기까지 비용을 획기적으로 줄일 수 있으며, 한 사람이 영화를 제작하는 것도 가능하다는 점에서 많은 기회를 제공합니다.
이들에게 더욱 흥미로운 점은 AI라는 새로운 도구를 통해 완전히 새로운 것을 창조하고 창의성의 한계를 뛰어넘어 불가능을 가능하게 만드는 사람들이 생겨날 것이라는 점입니다.
그러나 잠깐만요, 이는 과학자들에게는 멋진 환상에 불과합니다. 결국 일반인이 소라를 실제로 사용할 수 있게 되려면 오랜 시간이 걸릴 것입니다.
그리고 소라 멤버들이 밝힌 것처럼. AI는 영상 데이터로부터 학습하여 영상 제작 그 이상으로 유용하게 활용될 것입니다. GPT와 같은 모델은 똑똑하지만, 우리처럼 세상을 '볼' 수 없다면 일부 정보를 놓치고 있는 것입니다. 소라와 같은 모델이 이 문제를 해결하고 있습니다.
이것이 AGI가 다가오고 있다는 증거인가요?
마지막 사회자가 흥미로운 질문을 던졌는데요, Sora가 동영상을 생성하는 데 얼마나 걸리나요?
"상황에 따라 다르지만, 나가서 커피 한 잔 마시고 돌아와도 아직 처리 중이라 시간이 오래 걸릴 뿐입니다."
위는 소라 팀과의 인터뷰 내용이며, 간단히 요약하면 소라는 멋지고 세상을 볼 수 있으며, 그렇기 때문에 일반인이 금방 사용할 수 있는 것은 아니며 아직 보안 작업이 많이 남아있다는 것입니다.
어떤 일도 라이터를 물 수는 없으니 열심히 할 필요는 없습니다.