저자: Zeke, YBB Capital; 역자: 0xjs@GoldenFinance
서문
2월 16일, OpenAI는 다양한 시각 데이터 유형에서 고품질 비디오를 생성할 수 있는 최신 리터럴 비디오용 생성 확산 모델인 Sora를 출시하여 생성 AI의 새로운 이정표를 세웠다고 발표했습니다. 다양한 시각 데이터 유형에서 고품질 비디오를 생성할 수 있는 능력으로 제너레이티브 AI의 또 다른 이정표를 세웠습니다. 여러 이미지에서 초 단위의 동영상을 생성하는 Pika와 같은 AI 동영상 생성 도구와 달리, 소라는 동영상과 이미지의 압축된 잠재 공간에서 학습하여 시공간적 패치로 분해하여 확장 가능한 동영상을 생성합니다. 또한 이 모델은 물리적 세계와 디지털 세계를 모두 시뮬레이션할 수 있는 능력을 보여주며, 60초 분량의 데모는 '물리적 세계의 범용 시뮬레이터'로 묘사됩니다.
소라는 이전 GPT 모델의 '소스 데이터-변압기-확산-출현' 기술 경로를 따르며, 성숙도 역시 산술적 의존성이 있음을 시사합니다. 비디오 훈련에 필요한 데이터의 양이 텍스트보다 많다는 점을 감안하면 컴퓨팅 파워에 대한 수요는 더욱 증가할 것으로 예상됩니다. 그러나 AI 시대에서 산술의 중요성은 이미 이전 기사 "잠재적 산업 전망: 탈중앙화 산술 시장"에서 살펴본 바와 같이, AI의 인기가 높아지면서 수많은 산술 프로젝트가 생겨났고, 이에 따라 스토리지, 컴퓨팅 파워 등 DePIN 프로젝트의 가치가 급등하고 있습니다. 이 글에서는 디핀을 넘어 웹3.0과 인공지능의 결합으로 인해 발생할 수 있는 불꽃과 인공지능 시대에서 이 트랙의 기회에 대해 생각하면서 과거의 논의를 업데이트하고 구체화하는 것을 목표로 합니다.
< /p>
AI 개발의 세 가지 주요 방향
AI는 인간의 지능을 시뮬레이션하고 확장하며 향상시키는 것을 목표로 하는 떠오르는 과학 기술입니다. 1950년대와 1960년대에 처음 등장한 AI는 반세기 이상 발전해 왔으며, 이제 사회 생활과 산업 전반의 변화를 주도하는 핵심 기술이 되었습니다. 그 과정에서 상징주의, 연결주의, 행동주의라는 세 가지 주요 연구 방향이 서로 얽혀 발전하면서 오늘날 AI의 급속한 발전의 토대가 마련되었습니다.
심볼리즘
로지즘 또는 규칙 기반 추론이라고도 하는 상징주의는 상징 처리를 통해 인간의 지능을 모델링하는 것이 가능하다고 주장합니다. 이 접근법은 기호를 사용하여 문제 영역 내에서 사물, 개념 및 이들의 관계를 표현하고 조작하며 논리적 추론을 통해 문제를 해결합니다. 상징주의는 특히 전문가 시스템과 지식 표현 분야에서 큰 성공을 거두었습니다. 상징주의의 핵심 아이디어는 상징의 조작과 논리적 추론을 통해 지능적인 행동을 할 수 있으며, 여기서 상징은 현실 세계의 고차원적 추상화를 나타낸다는 것입니다.
연결주의
신경망 접근법이라고도 하는 이 접근법은 인간 두뇌의 구조와 기능을 모방하여 지능을 달성하는 것을 목표로 합니다. 이 접근법은 뉴런과 유사한 많은 단순 처리 단위로 구성된 네트워크를 구축하고 시냅스와 유사한 단위 간의 연결 강도를 조정하여 학습을 용이하게 합니다. 연결주의는 데이터로부터 학습하고 일반화하는 능력을 강조하기 때문에 패턴 인식, 분류 및 연속 입출력 매핑 문제에 특히 적합합니다. 연결주의가 진화한 딥러닝은 이미지 인식, 음성 인식, 자연어 처리와 같은 분야에서 획기적인 발전을 이루었습니다.
행동주의
행동주의는 생체 공학 로봇 및 자율 지능형 시스템 연구와 밀접한 관련이 있으며, 지능이 환경과 상호 작용하여 학습할 수 있다는 점을 강조합니다. 행동주의는 앞의 두 이론과 달리 내부 표상이나 사고 과정을 모델링하는 데 초점을 맞추지 않고 지각과 행동의 순환을 통한 적응적 행동에 초점을 맞춥니다. 행동주의는 지능이 환경과의 역동적인 상호작용과 학습을 통해 나타난다고 주장하며, 복잡하고 예측 불가능한 환경에서 작동하는 이동 로봇과 적응형 제어 시스템에 특히 효과적이라고 주장합니다.
이 세 가지 연구 방향은 근본적으로 다르지만 인공지능의 실제 연구와 적용에서 서로 상호 작용하고 통합할 수 있으며, 함께 인공지능 분야를 발전시킬 수 있습니다.
AIGC의 원리
폭발적으로 발전하고 있는 AIGC 분야는 인간의 창의성을 모방하여 새로운 콘텐츠를 생성할 수 있는 연결주의의 진화와 응용을 나타냅니다. 이러한 모델은 대규모 데이터 세트와 딥러닝 알고리즘을 사용하여 데이터의 기본 구조, 관계 및 패턴을 학습합니다. 사용자 프롬프트에 따라 이미지, 비디오, 코드, 음악, 디자인, 번역, 질문에 대한 답변, 텍스트 등 고유한 결과물을 생성합니다. 현재 AIGC는 기본적으로 딥러닝, 빅 데이터, 대규모 컴퓨팅 성능이라는 세 가지 요소로 구성되어 있습니다.
딥 러닝
딥 러닝은 인간 두뇌의 신경망을 모방한 알고리즘을 사용하는 머신 러닝의 하위 분야입니다. 예를 들어, 인간의 뇌는 정보를 학습하고 처리하기 위해 함께 작동하는 수백만 개의 상호 연결된 뉴런으로 구성되어 있습니다. 마찬가지로 딥 러닝 신경망(또는 인공 신경망)은 컴퓨터 내에서 함께 작동하는 여러 층의 인공 뉴런으로 구성됩니다. 이러한 인공 뉴런(노드라고 함)은 수학적 계산을 사용하여 데이터를 처리합니다. 인공 신경망은 이러한 노드를 사용하여 딥러닝 알고리즘을 통해 복잡한 문제를 해결합니다.
신경망은 입력 계층, 숨겨진 계층, 출력 계층으로 나뉘며, 매개변수는 각 계층을 연결합니다.
입력 계층: 신경망의 첫 번째 계층으로, 외부 입력 데이터를 수신하는 역할을 담당합니다. 입력 계층의 각 뉴런은 입력 데이터의 특징에 해당합니다. 예를 들어 이미지 데이터를 처리할 때 각 뉴런은 이미지의 픽셀 값에 대응할 수 있습니다.
히든 레이어: 입력 레이어는 데이터를 처리하여 네트워크에 더 전달합니다. 이러한 숨겨진 레이어는 다양한 수준에서 정보를 처리하며 새로운 정보가 수신되면 동작을 조정합니다. 딥러닝 네트워크에는 수백 개의 숨겨진 레이어가 있어 다양한 관점에서 문제를 분석할 수 있습니다. 예를 들어, 분류해야 하는 미지의 동물 이미지가 제시되면 귀의 모양, 다리 수, 눈동자의 크기 등을 조사하여 이미 알고 있는 동물과 비교할 수 있습니다. 심층 신경망의 숨겨진 계층도 비슷한 방식으로 작동합니다. 딥러닝 알고리즘이 동물의 이미지를 분류하려고 할 때 각 숨겨진 계층은 동물의 다른 특징을 처리하여 정확하게 분류하려고 합니다.
출력 계층: 신경망의 최종 계층은 네트워크의 출력을 생성하는 역할을 담당합니다. 출력 계층의 각 뉴런은 가능한 출력 범주 또는 값을 나타냅니다. 예를 들어 분류 문제에서는 각 출력 계층 뉴런이 범주에 해당할 수 있지만 회귀 문제에서는 출력 계층에 값이 예측을 나타내는 뉴런이 하나만 있을 수 있습니다.
매개변수: 신경망에서 서로 다른 계층 간의 연결은 가중치와 편향으로 표현되며, 이는 네트워크가 데이터의 패턴을 정확하게 식별하고 예측할 수 있도록 학습 중에 최적화됩니다. 매개변수를 추가하면 신경망의 모델링 기능, 즉 데이터의 복잡한 패턴을 학습하고 표현하는 능력이 향상됩니다. 그러나 이는 또한 연산 능력에 대한 수요를 증가시킵니다.
빅 데이터
신경망은 효과적인 학습을 위해 일반적으로 크고 다양한 고품질의 다중 소스 데이터가 필요합니다. 이는 머신러닝 모델을 훈련하고 검증하기 위한 기초를 형성합니다. 머신러닝 모델은 빅데이터 분석을 통해 데이터의 패턴과 관계를 학습하여 예측 또는 분류를 수행할 수 있습니다.
대용량 계산 능력
신경망 다층 구조는 많은 파라미터, 빅데이터 처리 요구 사항, 반복 훈련 방식(활성화 함수 계산, 손실 함수 계산, 기울기 계산, 가중치 업데이트 등 각 계층에서 순방향 및 역방향 전파 계산을 포함하여 모델을 훈련하는 동안 반복적으로 반복해야 함), 고정밀 계산 요구 사항, 병렬 계산 능력, 최적화 및 정규화 기법, 모델 평가 및 검증 프로세스를 함께 수행하려면 높은 컴퓨팅 성능이 필요합니다.
Sora
OpenAI의 최신 비디오 생성 AI 모델인 Sora는 다양한 시각 데이터를 처리하고 이해하는 AI의 능력을 크게 발전시킨 제품입니다. 소라는 비디오 압축 네트워크와 시공간 패치 기술을 사용하여 전 세계의 다양한 장치에서 캡처한 방대한 양의 시각 데이터를 통합된 표현으로 변환하여 복잡한 시각 콘텐츠를 효율적으로 처리하고 이해할 수 있습니다. Sora는 텍스트 조건부 확산 모델을 사용하여 텍스트 단서와 매우 일치하는 비디오 또는 이미지를 생성하여 높은 수준의 창의성과 적응성을 보여줄 수 있습니다.
그러나 비디오 생성 및 실제 세계 상호작용 시뮬레이션에서 획기적인 발전을 이루었음에도 불구하고, Sora는 실제 세계 시뮬레이션의 정확성, 생성 및 성장한 비디오의 일관성, 복잡한 텍스트 명령에 대한 이해, 훈련 및 생성의 효율성 등 여러 가지 한계에 직면해 있습니다. 기본적으로 소라는 OpenAI의 연산 능력 독점과 선점 우위를 통해 '빅데이터-변압기-확산-출현'이라는 오래된 기술 경로를 이어가며 무차별 대입의 미학을 실현하고 있습니다. 다른 AI 기업들도 기술 혁신을 통해 이들을 능가할 수 있는 잠재력을 가지고 있습니다.
소라는 블록체인과 큰 관련이 없지만, 향후 1~2년 내에 소라의 영향으로 다른 양질의 AI 생성 도구가 빠르게 등장하고 발전하여 게임파이, 소셜 플랫폼, 창작 플랫폼, 디핀 등 다양한 웹3.0 영역에 영향을 미칠 것으로 예상됩니다. 따라서 소라에 대한 전반적인 이해가 필요하며, 향후 AI를 Web3와 어떻게 효과적으로 결합할 수 있는지가 핵심 고려 사항입니다.
AI와 Web3의 융합을 위한 네 가지 경로
앞서 설명한 것처럼 제너레이티브 AI에 필요한 기본 요소는 기본적으로 알고리즘, 데이터, 연산 능력의 세 가지로 이해할 수 있습니다. 한편, 보편성과 산출 효과를 고려할 때 AI는 생산 방식을 혁신하는 도구입니다. 한편 블록체인의 가장 큰 영향은 생산 관계의 재구성과 탈중앙화라는 두 가지입니다.
따라서 저는 이 두 기술의 충돌이 다음과 같은 네 가지 경로를 만들어낼 수 있다고 생각합니다.
탈중앙화 연산
이 섹션은 앞서 언급한 것처럼 컴퓨팅 파워 환경의 현황을 업데이트하는 것을 목표로 합니다. AI에 있어 컴퓨팅 파워는 필수적인 요소입니다. 소라의 등장으로 이전에는 상상할 수 없었던 AI용 컴퓨팅 파워의 필요성이 대두되었습니다. 최근 스위스 다보스에서 열린 2024년 세계경제포럼에서 OpenAI의 CEO인 샘 알트먼은 산술과 에너지가 현재 가장 큰 제약 조건이라고 말하며, 향후에는 암호화폐와 동등한 중요성을 가질 수도 있다고 말했습니다. 그리고 2월 10일, 샘 알트먼은 현재의 글로벌 반도체 산업을 개편하기 위해 7조 달러(2023년 중국 GDP의 40%에 해당)를 투자하여 반도체 제국을 만들겠다는 충격적인 계획을 트위터에 올렸습니다. 컴퓨팅 파워에 대한 저의 이전 생각은 국가의 봉쇄와 기업의 독점에 국한되어 있었는데, 한 기업이 전 세계 반도체 산업을 지배하려 한다는 생각은 정말 미친 짓입니다.
따라서 탈중앙화된 컴퓨팅 파워의 중요성은 자명합니다. 블록체인의 특성은 컴퓨팅 파워의 극심한 독점과 전용 GPU 구입과 관련된 비싼 비용이라는 현재의 문제를 해결합니다. AI 요구 사항의 관점에서 연산 능력의 사용은 추론과 훈련이라는 두 가지 방향으로 나눌 수 있습니다. 분산형 네트워크는 통합 신경망 설계가 필요하고 하드웨어에 대한 요구가 매우 높으며 문턱이 높고 방향을 구현하기 어렵기 때문에 아직까지 훈련에 초점을 맞춘 프로젝트는 거의 없습니다. 반면, 추론은 분산형 네트워크 설계가 덜 복잡하고 하드웨어와 대역폭 요구 사항이 낮기 때문에 상대적으로 간단하여 주류 방향으로 자리잡고 있습니다.
중앙화된 산술 시장은 종종 '조'라는 키워드로 연상될 만큼 상상력이 방대하며, AI 시대에 가장 쉽게 과대 포장되기 쉬운 주제이기도 합니다. 하지만 최근 등장한 많은 프로젝트를 살펴보면 대부분 트렌드를 이용하려는 잘못된 시도로 보입니다. 탈중앙화라는 기치를 내세우면서도 탈중앙화 네트워크의 비효율성에 대한 논의는 피하는 경우가 많습니다. 또한, 많은 프로젝트가 매우 유사한 설계(원클릭 L2+채굴 설계)를 사용하는 등 설계의 동질화가 심해 궁극적으로 실패로 이어져 기존 AI 경쟁에서 자리를 잡기 어려울 수 있습니다.
알고리즘과 모델 시너지 시스템
머신러닝 알고리즘은 데이터에서 패턴과 규칙을 학습하고 이를 기반으로 예측이나 결정을 내릴 수 있는 알고리즘입니다. 알고리즘은 설계와 최적화에 고도의 전문 지식과 기술 혁신이 필요하기 때문에 기술 집약적입니다. 알고리즘은 데이터를 유용한 인사이트나 의사 결정으로 변환하는 방법을 정의하는 AI 모델 학습의 핵심입니다. 일반적인 생성 AI 알고리즘에는 생성적 적대 신경망(GAN), 가변적 오토코더(VAE), 트랜스포머가 있으며, 각 알고리즘은 특정 도메인(예: 그리기, 언어 인식, 번역, 동영상 생성) 또는 목적에 맞게 설계된 후 전문화된 AI 모델을 학습하는 데 사용됩니다.
그렇다면 각각의 장단점이 있는 수많은 알고리즘과 모델을 하나의 공통 모델로 통합할 수 있을까요? 최근 많은 주목을 받고 있는 프로젝트인 비텐서는 다양한 AI 모델과 알고리즘이 서로 협력하고 학습하여 보다 효율적이고 유능한 AI 모델을 만들도록 장려하는 방식으로 선도적인 역할을 하고 있습니다. 이 방향에 초점을 맞춘 다른 프로젝트로는 Commune AI(코드 협업) 등이 있지만, 알고리즘과 모델은 AI 기업에게 엄격하게 기밀로 유지되며 쉽게 공유되지 않습니다.
따라서 AI 협업 생태계에 대한 이야기는 새롭고 흥미롭습니다. 협업 생태계는 블록체인의 장점을 활용해 고립된 AI 알고리즘의 단점을 통합하지만, 그에 상응하는 가치를 창출할 수 있을지는 아직 지켜봐야 합니다. 결국 자율 알고리즘과 모델을 갖춘 선도적인 AI 기업은 업데이트, 반복, 통합 능력이 뛰어납니다. 예를 들어 OpenAI는 초기 텍스트 생성 모델에서 2년도 채 되지 않아 다중 도메인 생성 모델로 발전했습니다. Bittensor와 같은 프로젝트는 모델과 알고리즘이 목표로 하는 영역에서 새로운 길을 모색해야 할 수도 있습니다.
탈중앙화된 빅데이터
단순한 관점에서 볼 때, 스팸과 악의적인 행동을 방지하는 방법을 주요 고려 사항으로 삼아 개인 데이터를 사용하여 AI와 주석이 달린 데이터를 제공하는 것은 블록체인 기술과 매우 잘 맞는 방향입니다. 또한, 데이터 저장은 FIL 및 AR과 같은 DePIN 프로젝트에 도움이 될 수 있습니다. 좀 더 정교한 관점에서 블록체인 데이터 접근성을 해결하기 위해 머신러닝에 블록체인 데이터를 사용하는 것은 또 다른 흥미로운 방향입니다(기자가 탐구하는 것 중 하나).
이론적으로 블록체인 데이터는 블록체인 전체의 상태를 반영하여 쉽게 접근할 수 있습니다. 그러나 블록체인 생태계 외부의 사람들은 이 방대한 양의 데이터에 접근하는 것이 쉽지 않습니다. 전체 블록체인을 저장하려면 광범위한 전문 지식과 많은 특수 하드웨어 리소스가 필요합니다. 블록체인 데이터 접근의 어려움을 극복하기 위해 업계에서는 다양한 솔루션이 등장했습니다. 예를 들어, API를 통해 노드 액세스를 제공하는 RPC 제공자와 SQL 및 GraphQL을 통해 데이터를 검색할 수 있는 인덱싱 서비스가 문제 해결에 중요한 역할을 해왔습니다. 그러나 이러한 접근 방식에는 각각 한계가 있습니다. RPC 서비스는 많은 수의 데이터 쿼리가 필요한 고밀도 사용 사례에는 적합하지 않으며, 종종 수요를 충족하지 못합니다. 한편 인덱싱 서비스는 보다 구조화된 데이터 검색 방법을 제공하지만, Web3 프로토콜의 복잡성으로 인해 효율적인 쿼리를 구성하기가 매우 어렵고 때로는 수백, 수천 줄의 복잡한 코드가 필요합니다. 이러한 복잡성은 일반 데이터 실무자나 Web3의 세부 사항에 대한 지식이 부족한 사람들에게는 큰 장애물입니다. 이러한 한계가 누적되면 블록체인 데이터에 접근하고 활용하는 데 있어 보다 접근하기 쉽고 활용 가능한 접근 방식이 필요하며, 이를 통해 해당 분야에서 더 폭넓은 채택과 혁신을 촉진할 수 있습니다. 따라서 온체인 머신러닝의 부담을 덜어주는 영지식 증명 머신러닝(ZKML)과 고품질 블록체인 데이터를 결합하면 블록체인 데이터의 접근성 문제를 해결하는 데이터 세트를 만들 수 있습니다.AI는 블록체인 데이터에 대한 접근 장벽을 크게 낮출 수 있습니다. 시간이 지남에 따라 개발자, 연구자, 머신러닝 애호가들은 더 많은 고품질의 관련 데이터 세트에 액세스하여 효과적이고 혁신적인 솔루션을 구축할 수 있습니다.
AI 지원 디앱
2023년 ChatGPT3의 폭발적인 성장 이후, AI를 통한 디앱 활성화는 매우 일반적인 방향이 되었습니다. 광범위하게 적용 가능한 제너레이티브 AI는 API를 통해 통합되어 데이터 플랫폼, 트레이딩 봇, 블록체인 백과사전 및 기타 애플리케이션을 단순화하고 스마트화할 수 있습니다. 한편, 챗봇(예: 마이쉘) 또는 AI 컴패니언(슬리플리스 AI)으로 작동하거나 블록체인 게임에서 NPC를 만드는 데 제너레이티브 AI를 사용할 수도 있지만, 기술 장벽이 낮기 때문에 대부분 API를 통합한 후 약간의 조정만 하고 프로젝트 자체와의 통합이 불완전하여 거의 언급되지 않고 있습니다.
그러나 소라가 등장하면서 개인적으로 GameFi(메타 유니버스 포함)와 크리에이티브 플랫폼의 AI 강화가 앞으로의 초점이 될 것이라고 생각합니다. 웹3.0 분야의 상향식 특성을 고려할 때, 전통적인 게임이나 크리에이티브 기업과 경쟁할 수 있는 제품을 생산하기는 어려울 것으로 보입니다. 하지만 소라의 등장은 이러한 교착 상태를 단 2~3년 안에 깨뜨릴 수 있습니다. 소라의 데모를 보면 쇼트폼 극단과 경쟁할 수 있는 잠재력이 있으며, 웹3의 활기찬 커뮤니티 문화는 상상력만이 유일한 한계인 상향식 및 하향식 전통 산업 간의 장벽을 허물고 흥미로운 아이디어를 풍부하게 창출할 수 있습니다.
결론
제너레이티브 AI 도구가 계속 발전함에 따라 앞으로 더 많은 획기적인 '아이폰의 순간'을 목격하게 될 것입니다. AI와 Web3의 통합에 대한 회의적인 시각에도 불구하고, 저는 필요성, 효율성, 적합성이라는 세 가지 주요 문제만 해결하면 본질적으로 올바른 방향으로 나아가고 있다고 믿습니다. 이 두 가지의 통합은 아직 탐색 단계에 있지만, 그렇다고 해서 이 길이 다음 강세장의 필수 요소가 되는 것을 막지는 못합니다.
새로운 것에 대한 충분한 호기심과 개방성을 유지하는 것이 우리의 기본 마음가짐입니다. 역사적으로 마차에서 자동차로의 전환은 비문과 과거 NFT에서 알 수 있듯이 순식간에 해결되었습니다. 너무 많은 편견을 가지고 있으면 기회를 놓칠 수밖에 없습니다.