저자: 텅 옌, 생각의 사슬, 황금금융 샤오저우 번역
여전히 저를 괴롭히는 가장 큰 후회 중 하나는 의심할 여지없이 누구에게나 가장 명백한 투자 기회이지만 저는 여기에 한 푼도 투자하지 않았습니다. 그리고 저는 다음 솔라나 킬러나 재미있는 모자를 쓴 개 밈 코인에 대해 이야기하는 것이 아닙니다.
그보다는 ......NVIDIA입니다.
1년 만에 불과 1년 만에 NVDA의 시가총액은 1조 달러에서 3조 달러로 3배나 증가하여 같은 기간 동안 비트코인을 능가하는 수준으로 치솟았습니다.
AI에 대한 과대 광고가 많지만 상당 부분은 현실에 근거하고 있으며, NVIDIA는 2024 회계연도 매출이 2023 회계연도 대비 무려 126% 증가한 600억 달러에 달할 것이라고 발표했습니다.
그렇다면 왜 제가 놓쳤을까요?
2년 동안 저는 암호화폐에 집중하느라 외부를 살피지 않았고, AI 분야에는 관심을 기울이지 않았습니다. 저는 정말 큰 실수를 저질렀고 지금도 그 실수가 저를 괴롭히고 있습니다.
그러나 다시는 같은 실수를 저지르지 않겠습니다.
오늘날의 암호화 AI는 매우 비슷한 느낌입니다. 우리는 엄청난 혁신의 폭발을 목전에 두고 있습니다. 산업과 도시가 하룻밤 사이에 생겨나고, 인프라가 빠른 속도로 발전하며, 과감하게 생각하고 행동하는 사람들이 부를 창출했던 1800년대 중반의 캘리포니아 골드러시와 무시하기에는 너무도 유사합니다.
초창기 NVIDIA가 그랬던 것처럼, 지금 생각해보면 암호화 AI는 분명한 기회였을 것입니다.
이 글의 첫 번째 부분에서는 오늘날 투자자와 빌더에게 크립토 AI가 가장 흥미로운 언더독 기회인 이유에 대해 설명하겠습니다.
간단한 개요는 다음과 같습니다:
본질적으로 크립토 AI는 암호화 인프라 기반 AI입니다. 이는 더 넓은 암호화폐 시장보다 AI의 기하급수적인 성장 궤적을 따를 가능성이 더 높다는 것을 의미합니다. 따라서 뒤처지지 않으려면 아카이브의 최신 AI 연구를 따라잡고 차세대 놀라운 제품과 서비스를 만들고 있다고 믿는 창업자들과 이야기를 나누는 것이 중요합니다.
이 글의 두 번째 부분에서는 가장 유망한 크립토 AI의 네 가지 하위 분야를 살펴볼 것입니다:
이 기사를 작성하기 위해 저는 몇 주 동안 심도 있는 조사를 하고, 암호화폐 AI 분야의 창립자 및 팀들과 이야기를 나눴으며 이 기사는 이러한 노력의 정점입니다. 이 글은 모든 분야를 자세히 다루지는 않으며, 호기심을 자극하고 연구를 개선하며 투자에 대한 생각을 안내하기 위해 고안된 개략적인 로드맵이라고 생각하시면 됩니다.
1. 암호화 AI 그리드
탈중앙화 AI 스택을 여러 계층의 생태계로 묘사하면, 한쪽 끝에서 탈중앙화 컴퓨팅과 탈중앙화 AI 모델 훈련을 지원하는 오픈 데이터 네트워크로 시작됩니다.
그런 다음 암호화, 암호경제학적 인센티브, 평가 네트워크를 조합하여 입력과 출력 모두에 대한 각 추론을 검증하는 데 사용됩니다. 이렇게 검증된 출력은 체인에서 자율적으로 실행할 수 있는 AI 에이전트와 사용자가 실제로 신뢰할 수 있는 소비자 및 기업용 AI 앱으로 전달됩니다.
오케스트레이션 네트워크는 모든 것을 하나로 연결하여 에코시스템 전반에서 원활한 커뮤니케이션과 협업을 가능하게 합니다.
이 비전에서는 AI를 구축하는 모든 사람이 특정 요구사항에 따라 하나 이상의 스택 레이어를 활용할 수 있습니다. 모델 학습을 위해 분산형 컴퓨팅을 사용하든, 고품질 결과물을 보장하기 위해 평가 네트워크를 사용하든, 이 스택은 다양한 옵션을 제공합니다.
블록체인의 본질적인 구성 가능성으로 인해 우리는 자연스럽게 모듈화된 미래로 나아가고 있다고 생각합니다. 각 레이어는 고도로 전문화되고 있으며, 올인원 통합 방식이 아닌 다양한 기능에 최적화된 프로토콜이 등장하고 있습니다.
탈중앙화 AI 스택의 모든 계층에는 수많은 스타트업이 모여 있으며, 그 중 대부분은 지난 1~3년 사이에 설립되었습니다. 이 분야가 아직 초기 단계에 있다는 것은 분명합니다.
제가 본 가장 포괄적이고 최신의 암호화 AI 스타트업 지도는 Casey와 그녀의 팀이 운영하는 topology.vc에서 관리하고 있습니다. 이 분야를 추적하는 모든 사람에게 귀중한 자료입니다.
암호화 AI 하위 분야를 파고들면서 저는 계속해서 스스로에게 질문했습니다. 저는 작은 히트작에 관심이 있는 것이 아니라 수천억 달러에 달할 수 있는 시장을 찾고 있습니다.
(1) 시장 규모
시장 규모부터 살펴봅시다. 세그먼트를 평가할 때 저는 이것이 완전히 새로운 시장을 창출하는가 아니면 기존 시장을 파괴하는가?
탈중앙화 컴퓨팅을 예로 들어보겠습니다. 현재 시가총액이 약 6,800억 달러에 달하고 2032년에는 2조 5,000억 달러에 달할 것으로 예상되는 기존 클라우드 컴퓨팅 시장을 보면 그 잠재력을 가늠할 수 있는 파괴적인 범주입니다.
AI 에이전트와 같은 전례 없는 새로운 시장은 정량화하기가 더 어렵습니다. 과거 데이터가 없는 경우 추측과 해결하고자 하는 문제에 대한 평가를 바탕으로 평가해야 합니다. 때로는 새로운 시장처럼 보이는 것이 실제로는 문제에 대한 해결책을 찾기 위한 노력일 수 있다는 점에 유의하는 것이 중요합니다.
(2) 타이밍
타이밍이 가장 중요합니다. 기술은 시간이 지남에 따라 개선되고 비용이 절감되는 경향이 있지만,개발 속도는 다양합니다.
특정 부문의 기술은 얼마나 성숙되어 있나요? 대규모로 채택할 준비가 되었나요, 아니면 아직 연구 단계에 머물러 있어 실제 적용까지는 아직 몇 년이 남았나요? 타이밍은 산업이 즉각적인 관심을 기울여야 하는지 아니면 '관망'의 자세로 접근해야 하는지를 결정합니다.
완전 동형 암호화(FHE)를 예로 들면, 그 잠재력은 부인할 수 없지만 아직 널리 채택되기에는 너무 느립니다. 주류로 채택되기까지는 몇 년이 걸릴 수도 있습니다. 먼저 규모에 가까운 영역에 집중함으로써 모멘텀과 기회를 창출하는 영역에 시간과 에너지를 쏟을 수 있습니다.
이 범주들을 규모와 시간 차트에 매핑하면 다음과 같은 모양이 될 것입니다. 이것은 아직 개념도이지 딱딱하고 빠른 가이드가 아니라는 점을 명심하세요. 예를 들어, 검증 가능한 추론에서는 서로 다른 방법(예: zkML 및 opML)의 사용 준비 수준이 다릅니다.
그러나 저는 AI가 오늘날 '틈새' 영역처럼 보이는 분야도 중요한 시장으로 발전할 수 있을 정도로 커질 것이라고 믿습니다.
기술 발전이 항상 일직선을 그리는 것이 아니라 종종 급격하게 이뤄진다는 점도 주목할 필요가 있습니다. 갑작스러운 폭발이 일어나면 타이밍과 시장 규모에 대한 저의 견해가 달라질 것입니다.
이러한 틀을 염두에 두고 세부 분야를 구체적으로 살펴봅시다.
2. 영역 1: 탈중앙화 컴퓨팅
탈중앙화 컴퓨팅은 탈중앙화 AI의 중추입니다.
GPU 시장, 탈중앙화 트레이닝, 탈중앙화 추론은 밀접하게 연결되어 있습니다.
공급 측면은 일반적으로 중소규모 데이터센터와 소비자용 GPU에서 비롯됩니다.
수요 측면은 작지만 성장하고 있습니다. 오늘날에는 가격에 민감하고 지연 시간에 민감하지 않은 사용자와 소규모 AI 스타트업에서 수요가 발생합니다.
오늘날 웹3 GPU 시장이 직면한 가장 큰 과제는 이를 작동하게 하는 것입니다.
탈중앙화된 네트워크에서 GPU를 조율하려면 고급 엔지니어링과 잘 설계되고 신뢰할 수 있는 네트워크 아키텍처가 필요합니다.
2.1 GPU 마켓플레이스/컴퓨팅 네트워크
여러 크립토 AI 팀은 전 세계의 잠재적인 컴퓨팅 파워를 활용하는 탈중앙화 네트워크를 구축하여 수요를 따라잡지 못하는 GPU 부족에 대응하고 있습니다.
GPU 마켓플레이스에는 3가지 핵심 가치 제안이 있습니다:
AWS보다 "90% 저렴한" 가격으로 GPU를 얻을 수 있습니다. 중개자가 없고 공급 측면이 개방되어 있기 때문에 AWS보다 "90% 저렴한" 가격으로 컴퓨팅을 이용할 수 있습니다. 기본적으로 이러한 마켓플레이스에서는 세계에서 가장 낮은 컴퓨팅 한계 비용을 활용할 수 있습니다.
더 큰 유연성: 고정된 계약, KYC 프로세스, 대기 시간이 없습니다.
검열에 대한 저항
시장의 공급 측면을 해결하기 위해 이러한 시장에 대한 산술은 다음과 같습니다.
중소규모 데이터센터나 다각화를 모색하는 비트코인 채굴자에서 엔터프라이즈 GPU(예: A100, H100)에 대한 수요를 찾기 어렵습니다. 또한, 기술 성장 계획의 일환으로 데이터 센터를 구축하는 대규모 정부 지원 인프라 프로젝트에 참여하는 팀도 알고 있습니다. 이러한 GPU 제공자들은 종종 네트워크에 GPUT를 유지하도록 인센티브를 제공받으며, 이는 GPU의 상각 비용을 상쇄하는 데 도움이 됩니다.
수백만 명의 게이머와 소비자 GPU의 가정 사용자가 토큰 보상을 대가로 자신의 컴퓨터를 네트워크에 연결합니다.
반면, 오늘날 탈중앙화 컴퓨팅에 대한 수요는 다음과 같습니다.
< strong>가격에 민감하고 지연 시간에 민감하지 않은 사용자. 이 세그먼트는 속도보다 가격을 우선시합니다. 새로운 분야를 탐구하는 연구자, 독립 AI 개발자, 실시간 처리가 필요하지 않은 기타 비용에 민감한 사용자를 생각해 보세요. 이들 중 상당수는 예산 제약으로 인해 AWS나 Azure와 같은 기존 하이퍼스케일 서버에 불만족할 수 있습니다. 인구 분포가 매우 넓기 때문에 이 그룹을 유치하려면 타깃 마케팅이 매우 중요합니다.
소규모 AI 스타트업은 주요 클라우드 공급자와 장기 계약을 체결하지 않고 유연하고 확장 가능한 컴퓨팅 리소스를 확보해야 하는 과제에 직면해 있습니다. 하이퍼스케일 종속에 대한 대안을 적극적으로 모색하는 이 부문을 유치하기 위해서는 비즈니스 개발이 매우 중요합니다.
탈중앙화된 AI 제품을 개발하지만 자체 연산 자원이 없는 암호화 AI 스타트업은 이러한 네트워크 중 하나의 자원을 활용해야 할 것입니다.
클라우드 게임: 직접적인 AI 기반은 아니지만, 클라우드 게임은 GPU 리소스에 대한 수요가 점점 더 증가하고 있습니다.
명심해야 할 점은 개발자는 항상 비용과 안정성을 우선시한다는 것입니다.
진짜 문제는 공급이 아니라 수요입니다.
이 분야의 스타트업은 종종 성공의 신호로 GPU 공급망의 규모를 꼽습니다. 하지만 이는 오해의 소지가 있으며, 기껏해야 허영심에 의한 척도일 뿐입니다.
실제 제약은 공급이 아니라 수요입니다. 추적해야 할 핵심 지표는 사용 가능한 GPU의 수가 아니라 활용도와 실제로 임대된 GPU의 수입니다.
토큰은 공급을 유도하여 빠른 확장에 필요한 인센티브를 창출하는 데 큰 역할을 합니다. 하지만 토큰이 수요 문제를 근본적으로 해결하지는 못합니다. 진정한 테스트는 제품을 잠재 수요를 실현할 수 있을 만큼 좋은 상태로 만드는 것입니다.
이 점에 대해 Haseeb Qureshi(Dragonfly)는 다음과 같이 잘 설명했습니다.
컴퓨팅 네트워크를 실제로 작동하게 만들기
대중의 믿음과는 달리, 오늘날 웹3 분산 GPU 시장이 직면한 가장 큰 장애물은 네트워크를 작동하게 만드는 것입니다.
이것은 사소한 문제가 아닙니다.
분산 네트워크에서 GPU를 조정하는 것은 리소스 할당, 동적 워크로드 확장, 노드와 GPU 간의 로드 밸런싱, 지연 시간 관리 등 많은 과제가 있는 복잡한 작업입니다, 데이터 전송, 내결함성, 지리적 위치에 분산된 다양한 하드웨어 처리 등 많은 과제가 있습니다. 끝이 없습니다.
이를 달성하려면 신중한 엔지니어링과 안정적이고 잘 설계된 네트워크 아키텍처가 필요합니다.
더 나은 이해를 위해 Google의 Kubernetes를 생각해 보세요. 분산 GPU 네트워크가 직면한 과제와 마찬가지로 분산 환경에서 로드 밸런싱 및 확장과 같은 프로세스를 자동화하는 컨테이너 오케스트레이션의 표준으로 널리 알려져 있으며, Kubernetes 자체는 10년이 넘는 Google의 경험을 바탕으로 구축되었으며, 그 후에도 수년간의 끊임없는 반복을 거쳐 좋은 성능을 발휘할 수 있게 되었습니다.
현재 운영 중인 일부 GPU 컴퓨팅 마켓플레이스는 소규모 워크로드는 처리할 수 있지만 확장하려고 하면 바로 문제가 발생합니다. 이는 아키텍처 기반이 제대로 설계되지 않았기 때문이라고 생각합니다.
탈중앙화 컴퓨팅 네트워크의 또 다른 과제/기회는 신뢰성을 보장하는 것, 즉 각 노드가 실제로 주장된 컴퓨팅 성능을 제공하는지 검증하는 것입니다. 현재는 네트워크 평판에 의존하고 있으며, 경우에 따라 평판 점수에 따라 연산 제공자의 순위가 매겨지기도 합니다. 블록체인은 신뢰가 필요 없는 검증 시스템에 적합해 보입니다. Gensyn과 Spheron과 같은 스타트업은 신뢰가 필요 없는 접근 방식을 사용하여 이 문제를 해결하려고 합니다.
오늘날에도 많은 웹 3.0 팀이 이러한 문제를 해결하고 있으며, 이는 기회의 문이 열려 있다는 것을 의미합니다.
탈중앙화 컴퓨팅 시장 규모
탈중앙화 컴퓨팅 웹 시장은 얼마나 큰 규모인가요?
오늘날에는 6,800억 달러에서 2조 5,000억 달러에 이르는 클라우드 컴퓨팅 산업의 일부에 불과할 것입니다. 하지만 사용자들이 겪어야 할 마찰에도 불구하고 비용이 기존 제공업체보다 저렴하다면 수요는 항상 존재할 것입니다.
가격에 민감하지 않은 사용자(예: 한 달에 20달러든 50달러든 추가 현금으로 게이밍 노트북을 대여할 수 있다면 만족할 것입니다)를 위한 토큰 보조금과 공급 개방으로 인해 비용은 단기적으로 낮게 유지될 것으로 예상합니다.
하지만 분산 컴퓨팅 네트워크의 진정한 성장 잠재력, 그리고
인공지능 모델 드 중심 훈련이 실용화됩니다.
추론에 대한 수요가 급증하면서 기존 데이터센터가 이를 따라잡지 못하고 있습니다. 이미 이런 일이 일어나기 시작했으며, Jensen Huang은 추론에 대한 수요가 "10억 배"로 증가할 것이라고 말했습니다.
적절한 서비스 수준 계약(SLA)이 제공되고 있어 기업 도입의 주요 장벽을 해결하고 있습니다. 현재 분산형 컴퓨팅은 사용자가 서로 다른 수준의 서비스 품질(예: 가동 시간 비율)을 인지하는 방식으로 운영됩니다. 이러한 네트워크는 SLA를 통해 표준화된 안정성과 성능 지표를 제공할 수 있으므로 분산형 컴퓨팅은 기존 클라우드 제공업체의 대안이 될 수 있습니다.
탈중앙화된 비허가형 컴퓨팅은 탈중앙화된 AI 생태계의 기본 계층, 즉 인프라입니다.
GPU의 공급망이 확장되고 있지만, 저는 아직 인간 지능의 시대가 시작되는 단계에 있다고 생각합니다. 컴퓨팅에 대한 수요는 끝이 없을 것입니다.
지금 실행 중인 모든 GPU 시장의 재평가를 촉발할 수 있는 변곡점이 곧 다가올 수 있습니다.
기타 고려 사항 :
순수 GPU 시장은 분산형 플랫폼 간의 치열한 경쟁과 Vast.ai 및 Lambda와 같은 웹2.0 AI 신흥 클라우드 서비스의 부상으로 인해 혼잡합니다.
더 작은 노드(예: 4개 x H100)는 사용이 제한되어 수요가 많지 않지만, 대형 클러스터를 판매하는 업체를 찾는다면 운이 좋다면 여전히 어느 정도 수요가 있습니다.
지배적인 플레이어가 탈중앙화 프로토콜의 모든 산술 공급을 통합할까요, 아니면 여러 시장에 걸쳐 산술이 파편화된 상태로 유지될까요? 저는 통합이 일반적으로 인프라 효율성을 향상시키기 때문에 전자의 쪽에 무게를 두고 있습니다. 하지만 시간이 걸리고 그 동안에는 파편화와 혼란이 계속될 것입니다.
개발자는 배포와 구성에 신경 쓰기보다는 앱 개발에 집중하고 싶어 합니다. 시장은 이러한 복잡성을 추상화하여 컴퓨팅 액세스를 최대한 원활하게 만들어야 합니다.
2.2 분산형 교육
확장의 법칙이 맞다면, 확장의 법칙도 맞습니다. ">확장의 법칙이 적용된다면 단일 데이터 센터에서 차세대 최첨단 AI 모델을 훈련하는 것은 언젠가 불가능해질 것입니다.
AI 모델을 훈련하려면 GPU 간에 대량의 데이터를 전송해야 합니다. 분산된 GPU 간의 낮은 데이터 전송(상호 연결) 속도는 종종 가장 큰 장애물입니다.
연구자들은 여러 가지 접근법을 동시에 모색하고 있으며, Open DiLoCo, DisTrO와 같은 획기적인 발전이 이루어지고 있습니다. 이러한 발전이 쌓여 이 분야의 진보를 통합하고 가속화할 것입니다.
분산형 훈련의 미래는 최첨단 AGI 중심 모델보다는 틈새 애플리케이션을 위한 소규모의 특수 목적 모델을 설계하는 데 있을 수 있습니다.
OpenAI o1과 같은 모델로 전환하면서 추론에 대한 수요가 급증하여 분산형 추론 네트워크에 대한 기회가 창출될 것입니다.
세상을 바꿀 거대한 AI 모델이 비밀스러운 엘리트 연구소가 아닌 수백만 명의 평범한 사람들에 의해 개발되었다고 상상해 보세요. 보통 Call of Duty의 극장 같은 폭발을 만들어내는 GPU를 사용하는 게이머들은 이제 중앙 게이트키퍼가 없는 오픈소스 공동 소유의 AI 모델이라는 더 거대한 무언가에 자신의 하드웨어를 빌려주고 있습니다.
이러한 미래에는 재단 규모의 모델이 최고의 AI 연구소에만 국한되지 않습니다.
그러나 이 비전을 현재의 현실에 뿌리내리도록 합시다. 현재 대부분의 대규모 AI 학습은 여전히 중앙 집중식 데이터 센터에 집중되어 있으며, 당분간은 이러한 상황이 지속될 것으로 보입니다.
OpenAI와 같은 기업들은 대규모 클러스터를 확장하고 있습니다. 엘론 머스크는 최근 xAI가 H100 GPU 200,000개에 해당하는 데이터 센터를 곧 구축할 예정이라고 발표했습니다.
하지만 단순히 원시 GPU 수만이 중요한 것은 아닙니다. 모델 플롭스 활용도(MFU)는 Google이 PaLM 2022 연구 기사에서 제시한 지표로, GPU의 최대 용량이 얼마나 효율적으로 사용되는지 추적합니다. 놀랍게도 MFU는 일반적으로 35~40% 사이를 맴돌고 있습니다.
왜 그렇게 낮은가요? 무어의 법칙에 따라 지난 몇 년 동안 GPU 성능은 갑자기 급증했지만 네트워킹, 메모리, 스토리지의 개선은 크게 뒤쳐져 병목 현상이 발생했습니다. 그 결과 GPU는 종종 데이터를 기다리는 제한적인 상태에 놓이게 됩니다.
오늘날의 AI 학습은 '효율성'이라는 한 단어 때문에 여전히 높은 집중도를 보이고 있습니다.
대규모 모델 학습은 다음 기술에 따라 달라집니다.
이러한 접근 방식에서는 GPU가 지속적으로 데이터를 교환해야 하며, 인터커넥트 속도(네트워크 내 컴퓨터 간에 데이터가 전송되는 속도 -- 가 중요해집니다.
최첨단 AI 모델 학습에 10억 달러 이상의 비용이 드는 경우, 모든 효율성 향상은 중요합니다.
중앙 집중식 데이터센터는 고속 상호 연결을 통해 GPU 간에 데이터를 빠르게 전송할 수 있으며, 분산식 설정에서는 불가능한 훈련 시간 동안 상당한 비용을 절감할 수 있습니다.
느린 상호 연결 속도 극복
AI 분야에서 일하는 사람들과 이야기를 나누다 보면 많은 사람들이 분산형 트레이닝은 효과가 없다고 말할 것입니다.
분산형 설정에서는 GPU 클러스터가 물리적으로 공존하지 않기 때문에 클러스터 간 데이터 전송 속도가 훨씬 느려지고 병목 현상이 발생합니다. 트레이닝을 위해서는 모든 단계에서 GPU가 데이터를 동기화하고 교환해야 합니다. GPU가 멀리 떨어져 있을수록 지연 시간이 길어집니다. 지연 시간이 길어지면 훈련 속도가 느려지고 비용도 증가합니다.
중앙 집중식 데이터센터에서는 며칠이 걸릴 수 있는 일이 분산식 데이터센터에서는 더 높은 비용으로 2주까지 늘어날 수 있습니다. 이는 불가능합니다.
그러나 이제 곧 바뀔 것입니다.
좋은 소식은 분산형 교육에 대한 연구 관심이 급증하고 있다는 것입니다. 수많은 연구와 발표된 논문에서 알 수 있듯이 연구자들은 여러 가지 접근 방식을 동시에 모색하고 있습니다. 이러한 발전은 서로 중첩되고 융합되어 이 분야의 발전을 가속화할 것입니다.
또한 한계를 어디까지 확장할 수 있는지 알아보기 위한 프로덕션 환경 테스트도 중요합니다.
일부 분산형 훈련 기법은 이미 느린 상호 연결 환경에서 소규모 모델을 처리할 수 있습니다. 이제 첨단 연구를 통해 대규모 모델에서도 이러한 방법을 사용할 수 있게 되었습니다.
예를 들어, Prime Intellect의 오픈 소스 DiCoLo 기사는 동기화 전에 500개의 로컬 단계를 수행하는 GPU "사일로링"을 포함하는 실용적인 접근 방식을 보여줍니다. 동기화 전 500개의 로컬 단계를 수행하여 대역폭 요구 사항을 500배나 줄였습니다. 소규모 모델에 대한 Google DeepMind의 연구로 시작된 이 기술은 11월에 100억 개의 매개변수를 가진 훈련 모델로 확장되었으며, 현재 완전히 오픈 소스로 공개되었습니다.
Nous Research는 다음을 통해 기준을 높이고 있습니다. 12억 개의 파라미터 모델을 훈련하는 동안 GPU 간 통신 요구 사항을 10,000배까지 줄이는 최적화 도구를 사용하여 기준을 한 단계 높인 DisTrO 프레임워크입니다.
그리고 그 모멘텀은 계속되고 있습니다. 지난 12월, Nous는 손실 프로파일(시간이 지남에 따라 모델 오차가 감소하는 방식)과 수렴 속도(모델 성능이 얼마나 빨리 안정화되는지)가 중앙 집중식 훈련의 일반적인 결과와 일치하거나 심지어 능가하는 15억 개의 파라메트릭 모델을 사전 훈련했다고 발표했습니다. 네, 중앙 집중식보다 낫습니다.
분산형 네트워크의 전형적인 메모리 제약이 있는 소비자용 GPU를 포함해 다양한 GPU 하드웨어를 관리하는 것은 또 다른 큰 과제이며, 모델 병렬화(모델 계층을 여러 디바이스에 나눠서 사용)와 같은 기술이 이를 가능하게 하는 데 도움이 될 수 있습니다.
탈중앙화 훈련의 미래
현재의 탈중앙화 훈련 방법은 여전히 최첨단 모델보다 훨씬 작은 모델 크기를 가지고 있습니다. 프라임 인텔리전스의 10B 모델보다 100배 더 큰 1조에 가까운 것으로 보고되고 있습니다.) 진정한 규모를 달성하려면 모델 아키텍처의 혁신, 더 나은 네트워크 인프라, 더 스마트한 교차 장치 간 작업 할당이 필요합니다.
우리는 큰 꿈을 꿀 수 있습니다. 분산형 트레이닝이 대규모 중앙 데이터센터보다 더 많은 GPU 컴퓨팅 성능을 통합하는 세상을 상상해 보세요.
Pluralis Research(분산형 훈련에 집중하는 엘리트 팀으로 주목할 만합니다)는 이것이 가능할 뿐만 아니라 필연적이라고 믿습니다. 중앙 집중식 데이터 센터는 공간과 전력 가용성에 의해 물리적으로 제약을 받는 반면, 탈중앙화 네트워크는 전 세계의 무한한 리소스 풀을 활용할 수 있습니다.
비동기식 분산형 트레이닝이 AI 확장의 진정한 잠재력을 실현할 수 있다는 사실은 NVIDIA의 젠슨 황도 인정하고 있습니다. 분산형 트레이닝 네트워크는 내결함성도 뛰어납니다.
따라서 미래에는 세계에서 가장 강력한 AI 모델이 탈중앙화된 방식으로 학습될 것입니다.
이것은 흥미로운 전망이지만 현재로서는 완전히 확신할 수 없습니다. 대규모 모델의 분산형 훈련이 기술적으로나 경제적으로 실현 가능하다는 더 강력한 증거가 필요합니다.
분산형 훈련의 가장 큰 장점은 대규모 AGI 중심의 최첨단 모델과 경쟁하기보다는 목표 사용 사례를 위해 설계된 소규모 전용 오픈소스 모델에 있을 수 있다는 점입니다. 특정 아키텍처, 특히 비트랜스포머 모델은 탈중앙화 설정에 매우 적합한 것으로 입증되었습니다.
이 퍼즐에는 토큰이라는 또 다른 부분이 있습니다. 탈중앙화 훈련이 대규모로 가능해지면 토큰은 기여자에게 인센티브를 제공하고 보상을 제공하는 데 핵심적인 역할을 하여 이러한 네트워크를 효과적으로 조정할 수 있습니다.
이 비전을 실현하기 위한 길은 아직 멀지만, 진전이 고무적입니다. 미래 모델의 규모가 단일 데이터 센터의 용량을 초과할 것이므로, 분산형 트레이닝의 발전은 대형 기술 기업과 최고의 AI 연구소를 포함한 모든 사람에게 혜택을 줄 것입니다.
미래는 분산되어 있습니다. 광범위한 잠재력을 가진 기술은 항상 사람들의 기대보다 더 빠르고 더 잘 작동한다는 것을 역사는 보여줍니다.
2.3. 탈중앙화된 추론
현재 AI의 대부분의 연산 능력은 대규모 모델 훈련에 집중되어 있습니다. 최고의 AI 연구소는 누가 최고의 기본 모델을 개발하고 궁극적으로 AGI를 구현할 수 있는지 경쟁하고 있습니다.
그러나 제 생각에는 향후 몇 년 안에 이러한 훈련 중심의 컴퓨팅은 추론으로 전환될 것입니다. 의료에서 엔터테인먼트에 이르기까지 우리가 매일 사용하는 앱에 AI가 점점 더 많이 통합됨에 따라 추론을 지원하는 데 필요한 컴퓨팅 리소스의 양은 엄청나게 늘어날 것입니다.
추측은 단순한 추측 그 이상입니다. 추론 시간 컴퓨팅 확장은 AI의 최신 유행어입니다. openAI는 최근 최신 모델 01(코드명: Strawberry)의 프리뷰/미니 버전을 출시했는데, 이것이 큰 변화일까요? 이 질문에 답하기 위해 어떤 조치를 취해야 하는지 먼저 생각해보고 단계별로 진행해야 합니다.
이 모델은 십자말풀이처럼 많은 계획이 필요한 복잡한 작업이나 더 깊은 추론이 필요한 문제를 위해 설계되었습니다. 응답을 생성하는 속도가 느리고 시간이 더 걸리지만 훨씬 더 사려 깊고 미묘한 결과를 얻을 수 있습니다. 또한 실행 비용이 훨씬 더 비쌉니다(GPT-4보다 25배 더 비쌉니다).
인공지능 성능의 다음 도약은 더 큰 모델을 훈련하는 것뿐만 아니라 추론 프로세스에서 계산 애플리케이션을 확장하는 데서 비롯될 것입니다.
더 자세한 내용을 알아보려면 몇 가지 연구 기사를 참조하세요.
강력한 모델을 학습한 후에는 추론 작업(모델이 수행하는 작업)을 중앙 집중식 컴퓨팅 네트워크로 이전할 수 있습니다. 중앙 집중식 컴퓨팅 네트워크로 이전할 수 있습니다. 이는 비합리적이지 않습니다.
추론은 훈련에 비해 훨씬 적은 리소스를 필요로 합니다. 학습 후에는 정량화, 가지치기 또는 증류와 같은 기술을 사용하여 모델을 압축하고 최적화할 수 있습니다. 심지어 일상적인 소비자 기기에서 실행되도록 분해할 수도 있습니다. 추론을 지원하기 위해 하이엔드 GPU가 필요하지 않습니다.
이것은 이미 일어나고 있는 일입니다. Exo Labs는 450B 파라미터의 라마3 모델을 맥북과 맥 미니 같은 일반 소비자용 하드웨어에서 실행하는 방법을 알아냈습니다. 여러 기기에 걸쳐 추론을 분산하면 대규모 워크로드를 효율적이고 비용 효율적으로 처리할 수 있습니다.
분산형 추론을 AI용 CDN(콘텐츠 전송 네트워크)으로 생각하기: 분산형 추론은 인근 서버에 연결하여 웹사이트를 빠르게 제공하는 대신 로컬 컴퓨팅 성능을 활용하여 AI 응답을 기록적인 시간 내에 제공합니다. 분산 추론을 사용하면 AI 애플리케이션의 효율성과 응답성, 안정성이 향상됩니다.
트렌드는 분명합니다. Apple의 새로운 M4 Pro 칩은 최근까지 하드코어 게이머의 영역이었던 NVIDIA의 RTX 3070 Ti와 경쟁합니다. 하드웨어는 점점 더 고급 AI 워크로드를 처리할 수 있는 능력을 갖추고 있습니다.
암호화폐의 부가가치
탈중앙화된 추론 네트워크가 성공하려면 강력한 경제적 인센티브가 있어야 합니다. 네트워크의 노드는 산술적 기여에 대한 보상을 받아야 합니다. 시스템은 보상이 공정하고 효율적으로 분배되도록 보장해야 합니다. 추론 작업의 지연 시간을 줄이고 내결함성을 높이려면 지리적 다양성이 필요합니다.
탈중앙화된 네트워크를 구축하는 가장 좋은 방법은 무엇인가요?
토큰은 참여자들의 이해관계를 조정하여 모두가 네트워크 확장이라는 동일한 목표를 향해 노력하도록 보장하는 강력한 메커니즘을 제공합니다. 토큰의 가치를 높입니다.
토큰은 또한 네트워크 성장을 가속화합니다. 토큰은 얼리 어답터에게 보상을 제공하고 첫날부터 참여를 유도함으로써 대부분의 네트워크의 발목을 잡는 전형적인 닭이 먼저냐 달걀이 먼저냐의 문제를 해결하는 데 도움이 됩니다.
비트코인과 이더리움의 성공이 이를 증명합니다. 이들은 지구상에서 가장 큰 규모의 연산 풀을 축적했습니다.
다음은 탈중앙화된 추론 네트워크가 될 것입니다. 지리적 다양성을 통해 지연 시간을 줄이고, 내결함성을 높이며, AI를 사용자에게 더 가까이 다가갈 수 있게 해줍니다. 암호학적 인센티브를 통해 기존 네트워크보다 더 빠르고 더 잘 확장할 수 있습니다.
(미완성 사업, 계속 지켜봐 주세요)