동전 인쇄 기계의 전복
이더리움 네트워크가 네이티브 수익을 제공하기 때문에 그는 ETH를 선택했습니다.
JinseFinance제프 아미코 작성; Deep Tide TechFlow에서 컴파일
Folding@home은 뉴 크라운 유행 기간 동안 중요한 이정표를 달성했습니다. 이 연구 프로젝트는 전 세계 200만 대의 지원 장치로 2.4 엑사플롭스의 컴퓨팅 성능을 확보했습니다. 이는 당시 세계 최대 슈퍼컴퓨터의 15배에 달하는 처리 능력으로, 과학자들은 대규모로 코로나19 단백질 역학을 시뮬레이션할 수 있었습니다. 이들의 연구는 특히 전염병의 초기 단계에서 바이러스와 그 발병 기전에 대한 이해를 발전시켰습니다.
Folding@home 사용자의 글로벌 분포, 2021년
Folding@home은 컴퓨팅 리소스를 크라우드소싱하여 대규모 문제를 해결하는 프로젝트와 함께 자원봉사의 오랜 역사를 기반으로 합니다. 이 아이디어는 1990년대에 외계 생명체를 찾기 위해 5백만 대 이상의 자원 봉사 컴퓨터가 모인 SETI@home을 통해 주목을 받았습니다. 그 이후로 이 아이디어는 천체물리학, 분자생물학, 수학, 암호학, 게임 등 다양한 분야에 적용되었습니다. 각각의 사례에서 집단적 힘은 개별 프로젝트의 역량을 혼자서 달성할 수 있는 수준을 훨씬 뛰어넘는 수준으로 향상시켰습니다. 이는 진보를 촉진하고 보다 개방적이고 협력적인 방식으로 연구를 수행할 수 있게 해줍니다.
많은 사람들이 이 크라우드소싱 모델을 딥러닝에 적용할 수 있는지 궁금해합니다. 즉, 대규모 신경망을 대중 속에서 훈련할 수 있을까요? 프론티어 모델 훈련은 인류 역사상 가장 계산 집약적인 작업 중 하나입니다. 많은 @home 프로젝트와 마찬가지로, 현재 비용은 가장 큰 규모의 참여자만이 감당할 수 있는 수준을 넘어섰습니다. 이는 새로운 돌파구를 찾기 위해 점점 더 적은 수의 회사에 의존하게 되면서 미래의 발전을 저해할 수 있습니다. 또한 소수의 사람들에게만 AI 시스템의 통제권이 집중될 수 있습니다. 이 기술에 대해 어떻게 생각하든, 앞으로 지켜봐야 할 미래입니다.
대부분의 비평가들은 탈중앙화 훈련에 대한 아이디어를 현재의 훈련 기술과 양립할 수 없다고 일축합니다. 그러나 이러한 견해는 점점 더 시대에 뒤떨어지고 있습니다. 노드 간 통신의 필요성을 줄여 네트워크 연결이 좋지 않은 기기에서도 효율적으로 훈련할 수 있는 새로운 기술이 등장했습니다. 여기에는 DiLoCo, SWARM 병렬 처리, lo-fi 및 이기종 환경에서의 기본 모델 분산 훈련과 같은 여러 기술이 포함됩니다. 이들 중 다수는 내결함성을 갖추고 있으며 이기종 컴퓨팅을 지원합니다. 또한, 분산형 네트워크를 위해 설계된 새로운 아키텍처도 있는데, 여기에는 DiPaCo와 분산형 하이브리드 전문가 모델이 포함됩니다.
네트워크가 글로벌 규모로 리소스를 조정할 수 있도록 하는 다양한 암호화 기본 요소도 성숙해가고 있습니다. 이러한 기술은 디지털 통화, 국경 간 결제, 예측 시장과 같은 애플리케이션 시나리오를 지원합니다. 초기 자원 봉사 프로젝트와 달리, 이러한 네트워크는 현재 구상 중인 최대 규모의 클라우드 트레이닝 클러스터보다 몇 배나 큰 엄청난 양의 컴퓨팅 파워를 모을 수 있습니다.
이러한 요소들이 모여 새로운 모델 트레이닝 패러다임을 형성합니다. 이 패러다임은 함께 연결하면 사용할 수 있는 많은 수의 엣지 디바이스를 비롯한 글로벌 컴퓨팅 리소스를 활용합니다. 이는 새로운 경쟁 메커니즘을 도입함으로써 대부분의 트레이닝 워크로드 비용을 절감할 수 있습니다. 또한 새로운 형태의 트레이닝이 가능해져 모델 개발이 고립적이고 획일적인 접근 방식이 아닌 협업적이고 모듈화된 방식으로 이루어질 수 있습니다. 모델은 대중의 연산과 데이터에 액세스하여 실시간으로 학습할 수 있습니다. 개인은 자신이 만든 모델의 일부를 소유할 수 있습니다. 또한 연구자들은 높은 계산 예산을 충당하기 위해 자신의 발견을 수익화하지 않고도 새로운 발견을 공개적으로 다시 공유할 수 있습니다.
이 보고서는 대규모 모델 훈련의 현재 상태와 관련 비용을 조사합니다. 또한 SETI에서 폴딩, BOINC에 이르기까지 이전의 분산 컴퓨팅 노력을 검토하여 대안적인 경로를 모색하는 데 영감을 줍니다. 이 보고서에서는 분산형 훈련의 역사적 과제를 논의하고 이를 극복하는 데 도움이 될 수 있는 최근의 혁신에 대해 살펴봅니다. 그리고 미래의 기회와 도전 과제에 대한 요약으로 마무리합니다.
최첨단 모델 트레이닝의 비용은 대규모 참가자가 아닌 경우 감당할 수 없는 수준이 되었습니다. 이러한 추세는 새로운 것은 아니지만, 프론티어 연구소가 확장 가정에 계속 도전하면서 실질적인 수준에서 상황은 점점 더 악화되고 있습니다. OpenAI는 올해 학습에 30억 달러 이상을 지출한 것으로 알려졌으며, Anthropic은 2025년까지 100억 달러 규모의 학습을 시작할 것이며 1,000억 달러 규모의 모델도 그리 멀지 않을 것으로 예측하고 있습니다.
이러한 추세는 소수의 기업만이 참여할 수 있기 때문에 업계의 중앙 집중화로 이어졌습니다. 이는 미래의 핵심적인 정책 질문, 즉 모든 주요 AI 시스템이 한두 개의 기업에 의해 통제되는 상황을 받아들일 수 있는가 하는 문제를 제기합니다. 또한 소규모 연구실에서는 실험을 확장하는 데 필요한 컴퓨팅 리소스를 감당할 수 없기 때문에 연구 커뮤니티에서 분명하게 드러나는 발전 속도에 제한이 있습니다. 업계 리더들도 이에 대해 여러 차례 언급했습니다.
Meta의 Joe Spisak: [모델] 아키텍처의 기능을 제대로 이해하려면 대규모로 탐색해봐야 하는데, 현재 생태계에는 그런 부분이 부족하다고 생각합니다. 학계를 보면 학계에는 뛰어난 인재가 많지만 컴퓨팅 리소스에 대한 접근성이 부족하고, 훌륭한 아이디어는 있지만 필요한 수준에서 이를 실현할 수 있는 실제 경로가 없기 때문에 문제가 됩니다.
Together의 Max Ryabinin: 고가의 하드웨어가 필요하다는 것은 연구 커뮤니티에 많은 부담을 줍니다. 대부분의 연구자들은 필요한 실험을 수행하는 데 너무 많은 비용이 들기 때문에 대규모 신경망 개발에 참여할 수 없습니다. 계속 확장하여 모델의 크기를 키우면 결국 경쟁할 수 있을 것입니다...
Google의 프랑수아 콜레: 대규모 언어 모델(LLM)이 아직 일반 인공 지능(AGI)을 구현하지 못한다는 것을 알고 있습니다. 동시에 AGI를 향한 발전도 더디게 진행되고 있습니다. 대규모 언어 모델에서 우리가 직면한 한계는 5년 전에 직면했던 것과 똑같습니다. 새로운 아이디어와 돌파구가 필요합니다. 저는 다음 돌파구는 외부 팀에서 나올 가능성이 높다고 생각하며, 모든 대형 연구소는 더 큰 대규모 언어 모델을 훈련하느라 바쁘게 움직이고 있습니다. 일부에서는 이러한 우려에 회의적인 시각을 보이며 하드웨어 개선과 클라우드 투자가 문제를 해결할 수 있을 것이라고 믿습니다. 하지만 이는 비현실적인 생각입니다. 우선, 10년이 끝날 무렵에는 차세대 엔비디아 칩의 FLOP 수가 현재 사용 가능한 H100의 최대 10배까지 크게 증가할 것입니다. 이렇게 되면 FLOP당 가격이 80~90%까지 낮아질 것입니다. 마찬가지로, 네트워킹 및 관련 인프라의 개선과 함께 10년이 끝날 때까지 총 FLOP 공급량은 약 20배 증가할 것으로 예상됩니다. 이 모든 것이 비용당 교육 효율성을 향상시킬 것입니다.
출처:SemiAnalysis AI 클라우드 TCO 모델
한편, 연구소가 더 확장하려고 할 때 총 FLOP 수요는 급격히 증가할 것으로 예상됩니다. 지난 10년간의 트레이닝 연산 추세가 유지된다면, 2030년에는 프론티어 트레이닝의 FLOP이 약 2e29에 이를 것으로 예상됩니다. 현재의 트레이닝 런타임과 활용도를 기준으로 이 정도의 규모를 트레이닝하려면 약 2천만 개의 H100급 GPU가 필요할 것입니다. 이 공간에 여전히 여러 개의 프론티어 랩이 있다고 가정하면, 전체 공급이 이들 랩으로 나뉘기 때문에 필요한 총 FLOPS 수는 그 몇 배에 달할 것입니다. epochAI는 그 시점까지 약 1억 개의 H100 등가 GPU가 필요할 것으로 예측하며, 이는 2024년까지 출하될 수의 약 50배입니다. semiAnalysis도 비슷한 예측을 통해 이 기간 동안 프론티어 훈련 수요와 GPU 공급이 대략 비슷한 속도를 유지할 것이라고 제안하고 있습니다. 세미애널리시스는 비슷한 예측을 통해 이 기간 동안 최첨단 트레이닝 수요와 GPU 공급이 대략 비슷한 속도로 증가할 것으로 전망했습니다.
용량 상황은 여러 가지 이유로 더 타이트해질 수 있습니다. 예를 들어, 제조 병목현상으로 인해 예상 출하 주기가 지연되는 경우가 종종 있습니다. 또는 데이터 센터에 전력을 공급하기에 충분한 에너지를 생산하지 못하는 경우. 또는 이러한 에너지원을 그리드에 연결하는 데 문제가 있는 경우. 또는 자본 지출에 대한 면밀한 조사로 인해 업계가 규모를 축소하게 되는 경우 등 여러 가지 요인이 발생할 수 있습니다. 가장 좋은 시나리오에서는 현재의 접근 방식으로는 소수의 기업만이 연구를 계속 추진할 수 있으며, 그것만으로는 충분하지 않을 수도 있습니다.
새로운 접근 방식이 필요하다는 것은 분명합니다. 다음 돌파구를 찾기 위해 데이터 센터와 자본 지출, 에너지 소비를 지속적으로 확장하는 대신, 기존 인프라를 효율적으로 활용하고 수요 변동에 따라 유연하게 확장할 수 있는 접근 방식입니다. 수십억 달러의 컴퓨팅 예산에 대한 투자 수익을 보장하기 위해 더 이상 트레이닝 실행이 필요하지 않으므로 더 많은 연구 실험이 가능해질 것입니다. 이러한 한계에서 벗어나면 많은 사람들이 주장하듯이 일반 인공 지능(AGI)을 달성하기 위해 필요한 현재의 대규모 언어 모델링(LLM) 패러다임을 뛰어넘을 수 있습니다. 이러한 대안이 어떤 모습일지 이해하기 위해 과거의 분산 컴퓨팅 사례에서 영감을 얻을 수 있습니다.
SETI@home은 1999년에 이 개념을 대중화하여 수백만 명의 참가자가 외계 지능을 찾기 위해 무선 신호를 분석할 수 있도록 했으며, SETI는 Arecibo 망원경에서 전자기 데이터를 수집했습니다. 망원경을 통해 전자기 데이터를 수집하고, 이를 일괄 처리하여 인터넷을 통해 사용자에게 전송합니다. 사용자는 일상 활동 중에 데이터를 분석하고 그 결과를 다시 전송합니다. 사용자 간 통신이 필요 없고 배치별로 독립적으로 검토할 수 있어 고도의 병렬 처리가 가능합니다. 전성기에는 5백만 명 이상의 참여자와 당시 가장 큰 슈퍼컴퓨터보다 더 많은 처리 능력을 갖춘 SETI@home이 있었습니다. 결국 2020년 3월에 문을 닫았지만, 그 성공은 이후 자발적인 컴퓨팅 운동에 영감을 주었습니다.
Folding@home은 2000년에 이 아이디어를 이어받아 알츠하이머병, 암, 파킨슨병과 같은 질병의 단백질 폴딩을 시뮬레이션하기 위해 엣지 컴퓨팅을 사용했습니다. 자원봉사자들은 개인 컴퓨터로 여가 시간에 단백질 시뮬레이션을 수행하여 연구자들이 단백질이 어떻게 잘못 접혀서 질병을 일으키는지 연구하는 데 도움을 줍니다. 2000년대 후반과 코로나19 사태 당시 분산 컴퓨팅 프로젝트 최초로 1엑사플롭스를 돌파하는 등 역사상 여러 차례에 걸쳐 당시 가장 큰 슈퍼컴퓨터의 연산 능력을 뛰어넘었습니다. 프로젝트가 시작된 이래로 Folding 연구원들은 200개가 넘는 동료 검토 논문을 발표했으며, 각 논문은 자원 봉사자들의 계산 능력에 의존하고 있습니다.
버클리 네트워크 컴퓨팅을 위한 오픈 인프라(BOINC)는 2002년에 이 아이디어를 대중화하여 다양한 연구 프로젝트를 위한 크라우드소싱 컴퓨팅 플랫폼을 제공했습니다. SETI@home, Folding@home과 같은 여러 프로젝트는 물론 천체물리학, 분자생물학, 수학, 암호학 등의 분야에서 새로운 프로젝트를 지원하고 있습니다. 2024년까지 BOINC는 현재 진행 중인 30개의 프로젝트와 계산 네트워크를 사용해 생성된 1,000여 편의 과학 논문을 발표할 예정입니다.
과학 연구 외에도, 자원 봉사 컴퓨팅은 바둑(LeelaZero, KataGo), 체스(Stockfish, LeelaChessZero) 등의 게임 엔진 훈련에 사용되고 있으며, 2017년부터 2021년까지 LeelaZero는 자원 봉사 컴퓨팅을 통해 훈련되고 있습니다. 릴라제로는 2017년부터 2021년까지 자원 봉사 컴퓨팅을 통해 천만 번 이상의 대국을 치르며 훈련되어 현재 가장 강력한 바둑 엔진 중 하나가 되었습니다. 마찬가지로 Stockfish는 2013년부터 자원 봉사자 네트워크를 통해 지속적으로 훈련되어 가장 인기 있고 강력한 체스 엔진 중 하나가 되었습니다.
그러나 이 모델을 딥 러닝에 적용할 수 있을까요? 전 세계의 엣지 디바이스를 네트워크로 연결하여 저비용 퍼블릭 트레이닝 클러스터를 만들 수 있을까요? 애플 노트북부터 엔비디아 게이밍 그래픽 카드에 이르기까지 소비자 하드웨어의 딥 러닝 성능이 점점 더 향상되고 있습니다. 많은 경우, 이러한 디바이스는 심지어 데이터센터 그래픽 카드의 달러당 성능을 능가하고 있습니다.
그러나 분산 환경에서 이러한 자원을 효과적으로 활용하기 위해서는 다양한 과제를 극복해야 합니다.
첫째, 현재의 분산 훈련 기법은 노드 간의 빈번한 통신을 전제로 합니다.
현재의 최신 모델은 너무 커져서 수천 대의 GPU에 걸쳐 훈련을 분할해야 합니다. 이는 다양한 병렬화 기술을 통해 이루어지며, 일반적으로 모델, 데이터 세트 또는 두 가지 모두를 사용 가능한 GPU 간에 분할합니다. 이를 위해서는 일반적으로 대역폭이 높고 지연 시간이 짧은 네트워크가 필요하며, 그렇지 않으면 노드가 유휴 상태로 남아 데이터가 도착할 때까지 기다리게 됩니다.
예를 들어 분산 데이터 병렬 처리(DDP)는 데이터 집합을 GPU에 분산하여 각 GPU가 특정 데이터 조각에 대해 전체 모델을 학습한 다음 그라데이션 업데이트를 공유하여 각 단계에 대한 새로운 모델 가중치를 생성합니다. 이 방식은 노드가 각 역전파 후에만 그라데이션 업데이트를 공유하고 집단 통신 작업이 계산과 부분적으로 겹칠 수 있기 때문에 통신 오버헤드가 상대적으로 제한적입니다. 그러나 이 접근 방식은 각 GPU가 전체 모델 가중치, 활성화 값 및 최적화기 상태를 메모리에 저장해야 하므로 소규모 모델에만 적합합니다. 예를 들어, GPT-4는 학습을 위해 10TB 이상의 메모리가 필요하지만 단일 H100은 80GB에 불과합니다.
이 문제를 해결하기 위해 다양한 기술을 사용해 모델을 분할하여 GPU에 분산시킵니다. 예를 들어 텐서 병렬화는 단일 레이어 내에서 가중치를 분할하여 각 GPU가 필요한 연산을 수행하고 출력을 다른 GPU로 전달합니다. 이렇게 하면 각 GPU의 메모리 요구량이 줄어들지만, GPU 간 지속적인 통신이 필요하므로 효율성을 높이기 위해 고대역폭, 저지연 연결이 필요합니다.
파이프라인 병렬화는 모델의 레이어를 여러 GPU에 분산하여 각 GPU가 작업을 실행하고 파이프라인의 다음 GPU와 업데이트를 공유합니다. 텐서 병렬 처리보다 통신이 덜 필요하지만, 파이프라인 뒤의 GPU가 작업을 시작하기 위해 앞의 GPU로부터 정보를 기다리는 '버블'(예: 유휴 시간)이 발생할 수 있습니다.
이러한 문제를 해결하기 위해 다양한 기술이 개발되었습니다. 예를 들어, ZeRO(제로 중복 최적화 기법)는 특정 장치에서 더 큰 모델을 훈련할 수 있도록 통신 오버헤드를 증가시켜 메모리 사용량을 줄이는 메모리 최적화 기법으로, 모델 파라미터, 기울기 및 최적화 상태를 GPU 간에 분할하여 메모리 요구량을 줄이지만 장치가 분할된 데이터에 액세스할 수 있도록 하기 위해 많은 양의 통신에 의존하게 됩니다. 이는 완전 슬라이스 데이터 병렬 처리(FSDP) 및 딥스피드와 같이 널리 사용되는 기법의 기본 방법론입니다.
이러한 기법은 리소스 활용의 효율성을 극대화하기 위해 대규모 모델 학습에 조합하여 사용하는 경우가 많으며, 이를 3D 병렬 처리라고 합니다. 이 구성에서 텐서 병렬화는 일반적으로 분할된 각 계층 간에 많은 양의 통신이 필요하기 때문에 단일 서버 내의 GPU에 가중치를 분산하는 데 사용됩니다. 그런 다음 파이프라인 병렬화는 통신이 덜 필요하기 때문에 서로 다른 서버 간에(그러나 데이터 센터의 동일한 아일랜드 내에) 레이어를 분산하는 데 사용됩니다. 다음으로, 데이터 병렬 처리 또는 완전 슬라이스 데이터 병렬 처리(FSDP)는 업데이트를 비동기적으로 공유하거나 그라데이션을 압축하여 더 긴 네트워크 지연 시간을 수용할 수 있기 때문에 서로 다른 서버의 아일랜드 간에 데이터 세트를 분할하는 데 사용됩니다. 다음 그래픽과 같이 Meta는 이러한 접근 방식의 조합을 사용하여 Llama 3.1을 훈련시켰습니다.
이러한 접근 방식은 (훨씬 느리고 변동성이 큰) 소비자급 인터넷을 통해 연결된 디바이스에 의존하는 분산형 트레이닝 네트워크의 핵심 과제를 제시합니다. 이러한 환경에서는 데이터가 도착하기를 기다리며 디바이스가 유휴 상태인 경우가 많기 때문에 통신 비용이 엣지 컴퓨팅의 이점을 빠르게 능가하게 됩니다. 10억 개의 매개변수가 있는 반정확도 모델의 분산 데이터 병렬 학습의 간단한 예를 들어 설명하자면, 각 GPU는 최적화 단계당 2GB의 데이터를 공유해야 합니다. 일반적인 인터넷 대역폭(예: 초당 1기가비트)에서 계산과 통신이 겹치지 않는다고 가정하면 기울기 업데이트를 전송하는 데 최소 16초가 걸리므로 상당한 유휴 시간이 발생합니다. 더 많은 통신이 필요한 텐서 병렬 처리와 같은 기술은 당연히 성능이 더 나빠집니다.
둘째, 현재의 훈련 기법에는 내결함성이 부족합니다. 다른 분산 시스템과 마찬가지로 훈련 클러스터도 규모가 커질수록 장애가 발생하기 쉽습니다. 그러나 현재 기술은 대부분 동기식이기 때문에 모델 학습을 완료하기 위해 GPU가 함께 작동해야 하기 때문에 이 문제는 학습에서 더욱 악화됩니다. 수천 개의 GPU 중 하나의 GPU에 장애가 발생하면 전체 훈련 프로세스가 중단되어 다른 GPU가 처음부터 훈련을 시작해야 할 수 있습니다. 어떤 경우에는 GPU가 완전히 고장 나지 않고 여러 가지 이유로 느려져 클러스터에 있는 수천 개의 다른 GPU의 속도가 느려지는 경우도 있습니다. 오늘날 클러스터의 규모를 고려할 때, 이는 수천만 달러에서 수억 달러의 추가 비용을 의미할 수 있습니다.
Meta는 라마 훈련 중에 이러한 문제를 자세히 설명했는데, 이 훈련에서는 하루 평균 약 8회, 400회 이상의 예기치 않은 중단을 경험했습니다. 이러한 중단은 주로 GPU 또는 호스트 하드웨어 장애와 같은 하드웨어 문제로 인해 발생했습니다. 그 결과 GPU 사용률은 38~43%에 불과했습니다. 훈련 중 잦은 장애로 인해 GPT-4 훈련 중 OpenAI의 성능은 32~36%로 더욱 악화되었습니다.
다시 말해, 최첨단 연구실은 균일한 최신 하드웨어, 네트워킹, 전력 및 냉각 시스템을 갖춘 완전히 최적화된 환경에서 훈련할 때 40%의 활용률을 달성하는 데 여전히 어려움을 겪고 있습니다. 이는 주로 하드웨어 장애와 네트워크 문제 때문인데, 이는 처리 능력, 대역폭, 지연 시간, 안정성 측면에서 디바이스가 고르지 않은 엣지 트레이닝 환경에서 더욱 심해집니다. 말할 것도 없이, 분산형 네트워크는 다양한 이유로 전체 프로젝트를 방해하거나 특정 워크로드에서 부정 행위를 시도하는 악의적인 공격자에게 취약할 수 있습니다. 순수 자원 봉사 네트워크인 SETI@home에서도 다양한 참여자들의 부정 행위가 있었습니다.
셋째, 최첨단 모델 훈련에는 막대한 연산 능력이 필요합니다. SETI와 폴딩과 같은 프로젝트는 인상적인 규모를 달성했지만, 오늘날 최첨단 훈련에 필요한 계산 능력에 비하면 왜소합니다.GPT-4는 반정밀도에서 최대 처리량 6.28 ExaFLOPS로 20,000개의 A100 클러스터로 훈련했으며, 이는 최고 정점에 달했던 Folding@home보다 3배나 많은 계산 능력입니다. 라마 405b는 16,000개의 H100으로 훈련되었으며, 최고 처리량은 15.8 ExaFLOPS로 폴딩의 7배에 달합니다. 여러 연구소에서 각각 무려 99 ExaFLOPS의 연산 능력을 갖춘 100,000개 이상의 H100 클러스터를 구축할 계획이므로 그 격차는 더욱 커질 것입니다.
이것은 @home 프로젝트가 자원봉사로 이루어지기 때문에 가능한 일입니다. 기여자는 자신의 메모리와 프로세서 주기를 기부하고 관련 비용을 부담합니다. 따라서 당연히 상업적 프로젝트에 비해 규모가 제한됩니다.
역사적으로 이러한 문제는 분산형 훈련 노력을 괴롭혀 왔지만, 더 이상 극복할 수 없을 것 같지는 않습니다. 노드 간 통신의 필요성을 줄여 인터넷에 연결된 기기에서 효율적으로 훈련할 수 있는 새로운 훈련 기법이 등장했습니다. 이러한 기법의 대부분은 모델 훈련에 더 큰 규모를 추가하고자 하는 대규모 실험실에서 시작되었으며, 따라서 데이터 센터 전반에 걸쳐 효율적인 통신 기술이 필요합니다. 또한 엣지 환경에서 대규모 훈련을 지원할 수 있는 내결함성 훈련 방법과 암호화된 동기 부여 시스템도 발전하고 있습니다.
DiLoCo는 업데이트된 모델을 디바이스 간에 전달하기 전에 로컬에서 최적화함으로써 다음과 같은 이점을 제공하는 Google의 최근 연구입니다. 통신 오버헤드를 줄였습니다. 이전의 연합 학습 연구를 기반으로 한 이 접근 방식은 노드 간의 통신을 500배나 줄이면서도 기존의 동기식 학습과 비슷한 결과를 보여주었습니다. 이후 이 방법은 다른 연구자들에 의해 복제되어 더 큰 규모의 모델(10억 개 이상의 매개변수)을 훈련하는 데까지 확장되었습니다. 또한 비동기 훈련으로 확장되어 노드가 한 번에 한꺼번에 업데이트하지 않고 서로 다른 시간에 그라데이션 업데이트를 공유할 수 있습니다. 이는 다양한 처리 능력과 네트워크 속도를 가진 엣지 하드웨어에 더 적합합니다.
또 다른 데이터 병렬 접근 방식인 lo-fi와 DisTrO는 통신 비용을 더욱 절감하는 것을 목표로 합니다. lo-fi는 완전한 로컬 미세 조정을 제안하며, 이는 노드가 독립적으로 훈련되고 가중치가 마지막에만 전달되는 것을 의미합니다. 이 접근 방식은 10억 개 이상의 매개변수가 있는 언어 모델을 미세 조정할 때 벤치마크와 비슷한 성능을 제공하면서도 통신 오버헤드를 완전히 제거합니다. 예비 보고서에서 DisTrO는 통신 요구 사항을 4~5배까지 줄일 수 있는 새로운 분산 옵티마이저를 사용한다고 주장했지만, 이 접근 방식은 아직 확인되지 않았습니다.
모델 병렬화에 대한 새로운 접근 방식도 등장하여 더 큰 규모를 달성할 수 있게 되었습니다. DiPaCo(역시 Google에서 개발)는 모델을 모듈로 나누고, 각 모듈에는 특정 작업에 대한 훈련을 위한 다른 전문가 모듈이 포함되어 있습니다. 그런 다음 훈련 데이터는 각 데이터 샘플에 해당하는 전문가들의 시퀀스인 '경로'를 통해 슬라이스됩니다. 슬라이스가 주어지면 각 작업자는 모듈을 공유하는 데 필요한 통신을 제외하고는 거의 독립적으로 특정 경로를 훈련할 수 있으며, 이 작업은 DiLoCo에서 부분적으로 처리합니다. 이 아키텍처는 10억 개 매개변수 모델의 훈련 시간을 절반 이상 단축합니다.
SWARM 병렬 처리 및 이기종 환경에서의 기초 모델 분산 훈련(DTFMHE)도 이기종 환경에서 대규모 모델 훈련을 가능하게 하는 모델 병렬 처리를 제안하며, SWARM은 모델 크기가 커질수록 파이프라인 병렬 처리 통신 제약이 감소하여 결과적으로 네트워크 대역폭과 지연 시간을 줄여 대규모 모델을 효율적으로 훈련할 수 있습니다. 이 아이디어를 이기종 환경에 적용하기 위해 각 반복마다 실시간으로 업데이트할 수 있는 노드 간의 임시 '파이프라인 연결'을 사용합니다. 이를 통해 노드는 다음 파이프라인 단계에 있는 피어 노드에 출력을 전송할 수 있습니다. 즉, 한 피어 노드가 다른 피어 노드보다 빠르거나 참여자가 연결을 끊는 경우 각 단계에 활성 참여자가 한 명 이상 있는 한 학습이 계속되도록 출력을 동적으로 다시 라우팅할 수 있습니다. 이 접근 방식을 사용하여 상호 연결이 느린 저가의 이기종 GPU에서 10억 개 이상의 파라미터가 있는 모델을 훈련했습니다(아래 그림 참조).
DTFMHE는 3개 대륙에 걸친 디바이스에서 대규모 모델을 훈련하기 위해 새로운 스케줄링 알고리즘과 파이프라인 병렬화 및 데이터 병렬화를 제안했습니다. 이들의 네트워크는 표준 딥스피드보다 100배 느리지만, 데이터 센터에서 표준 딥스피드를 사용하는 것보다 1.7~3.5배 느릴 뿐입니다. SWARM과 마찬가지로 DTFMHE는 지리적으로 분산된 네트워크에서도 모델 크기가 증가함에 따라 통신 비용을 효과적으로 숨길 수 있음을 보여줍니다. 이를 통해 숨겨진 레이어의 크기를 늘리고 파이프라인 단계당 더 많은 레이어를 추가하는 등 다양한 기술을 통해 노드 간의 연결 약화를 극복할 수 있습니다.
위에 설명한 데이터 병렬 접근 방식의 대부분은 각 노드가 전체 모델을 메모리에 저장하기 때문에 기본적으로 내결함성을 갖습니다. 이러한 이중화는 일반적으로 다른 노드에 장애가 발생하더라도 노드가 독립적으로 작동할 수 있음을 의미합니다. 이는 노드가 종종 신뢰할 수 없고 이질적이며 심지어 악의적으로 작동할 수도 있기 때문에 분산형 훈련에 중요합니다. 그러나 앞서 언급했듯이 데이터 전용 병렬 방법은 소규모 모델에만 적합하므로 모델 크기는 네트워크에서 가장 작은 노드의 메모리 용량에 의해 제약을 받습니다.
위와 같은 문제를 해결하기 위해 일부에서는 모델 병렬(또는 하이브리드 병렬) 훈련에 적합한 내결함성 기법을 제안했는데, SWARM은 지연 시간이 짧은 안정적인 피어 노드의 우선 순위를 지정하고 장애 발생 시 파이프라인 단계에서 작업을 다시 라우팅하여 피어 노드 장애에 대응합니다. Oobleck과 같은 다른 접근 방식은 부분적인 노드 장애에 대응하여 중복성을 제공하기 위해 여러 개의 '파이프라인 템플릿'을 생성하는 방식으로 비슷한 접근 방식을 취합니다. 데이터 센터에서 테스트되었지만 Oobleck의 접근 방식은 분산 환경에도 동일하게 적용할 수 있는 강력한 안정성을 보장합니다.
분산형 환경에서의 내결함성 훈련을 지원하기 위한 분산형 전문가 혼합(DMoE) 모델과 같은 새로운 모델 아키텍처도 등장했습니다. 기존의 전문가 혼합 모델과 유사하게, DMoE는 일련의 작업자 노드에 분산된 여러 독립적인 '전문가' 네트워크로 구성되며, 분산 해시 테이블을 사용해 비동기 업데이트를 분산된 방식으로 추적하고 통합합니다. 이 메커니즘은 일부 노드가 실패하거나 적시에 응답하지 못할 경우 특정 전문가를 평균 계산에서 제외할 수 있기 때문에 노드 장애에 강력합니다(SWARM에서도 사용됨).
마지막으로, 비트코인이나 이더리움에서 사용하는 것과 같은 암호화폐 인센티브 시스템이 필요한 규모를 달성하는 데 도움이 될 수 있습니다. 이 두 네트워크는 채택이 증가함에 따라 가치가 증가할 수 있는 로컬 자산을 기여자에게 지급함으로써 계산을 크라우드소싱합니다. 이러한 설계는 초기 기여자에게 넉넉한 보상을 제공함으로써 인센티브를 제공하며, 네트워크가 최소 실행 가능한 규모에 도달하면 점차적으로 보상을 줄일 수 있습니다.
이 메커니즘에는 피해야 할 여러 가지 함정이 있는 것이 사실입니다. 이러한 함정 중 가장 대표적인 것은 공급을 과도하게 장려하는 반면 그에 상응하는 수요를 창출하지 못하는 것입니다. 또한, 기본 네트워크가 충분히 탈중앙화되지 않은 경우 규제 문제가 발생할 수 있습니다. 그러나 탈중앙화된 인센티브 시스템은 적절하게 설계된다면 장기간에 걸쳐 상당한 규모를 달성할 수 있습니다.
예를 들어, 비트코인의 연간 전력 소비량은 약 150테라와트시(TWh)로, 현재 생각되는 가장 큰 AI 훈련 클러스터의 전력 소비량(100,000개의 H100이 1년 동안 최대 용량으로 작동)보다 두 배 이상 높습니다. 참고로 OpenAI의 GPT-4는 20,000개의 A100으로, Meta의 플래그십 모델인 Llama 405B는 16,000개의 H100으로 훈련되었습니다. 마찬가지로 이더넷의 전력 소비량은 최고조에 달할 때 약 70TWh로, 수백만 개의 GPU에 분산되어 있습니다. 향후 몇 년 동안 AI 데이터센터의 급속한 성장을 감안하더라도 이와 같은 인센티브 컴퓨팅 네트워크는 그 규모를 몇 배 이상 초과할 것입니다.
물론 모든 연산이 대체 가능한 것은 아니며, 트레이닝에는 마이닝과 관련하여 고려해야 할 고유한 요구사항이 있습니다. 그럼에도 불구하고 이러한 네트워크는 이러한 메커니즘을 통해 달성할 수 있는 규모를 보여줍니다.
이러한 조각들을 하나로 묶으면 새로운 길의 시작을 볼 수 있습니다.
조만간 새로운 교육 기술을 통해 더 이상 디바이스를 함께 배치할 필요가 없어지면서 데이터센터의 한계를 뛰어넘을 수 있게 될 것입니다. 현재의 분산형 학습 방법은 주로 10억~20억 개의 매개변수 범위에서 비교적 작은 규모로, GPT-4와 같은 모델보다 훨씬 작기 때문에 시간이 걸릴 것입니다. 통신 효율성 및 내결함성과 같은 주요 속성을 희생하지 않으면서 이러한 방법의 규모를 늘리려면 추가적인 혁신이 필요합니다. 또는 오늘날의 대형 모놀리식 모델과는 다른, 더 작고 모듈화되어 있으며 클라우드가 아닌 엣지 디바이스에서 실행되는 새로운 모델 아키텍처가 필요합니다
어떤 경우든 이 방향에서 더 많은 진전을 기대하는 것은 합리적입니다. 더 많은 진전이 이루어질 것입니다. 현재 접근 방식의 비용은 지속 불가능하며, 이는 혁신에 대한 강력한 시장 인센티브를 제공합니다. 이미 Apple과 같은 제조업체들이 클라우드에 의존하지 않고 더 많은 워크로드를 로컬에서 실행하기 위해 더 강력한 엣지 디바이스를 구축하는 등 이러한 추세를 목격하고 있습니다. 또한 Meta와 같은 회사에서도 보다 분산된 연구 개발을 촉진하기 위해 오픈 소스 솔루션에 대한 지원이 증가하고 있습니다. 이러한 추세는 시간이 지날수록 더욱 가속화될 것입니다.
동시에 엣지에 있는 디바이스를 이러한 방식으로 사용할 수 있도록 연결할 새로운 네트워크 인프라가 필요합니다. 이러한 디바이스에는 노트북, 게임용 데스크톱, 고성능 그래픽 카드와 대용량의 RAM이 장착된 휴대폰이 포함될 수 있습니다. 이를 통해 교육 작업을 병렬로 처리할 수 있는 저비용, 상시 가동 컴퓨팅 성능의 '글로벌 클러스터'를 구축할 수 있을 것입니다. 이 또한 여러 영역에서 진전이 필요한 어려운 문제입니다.
이기종 환경에서의 트레이닝을 위한 더 나은 스케줄링 기술이 필요합니다. 현재로서는 최적화를 위해 모델을 자동으로 병렬화할 수 있는 방법이 없으며, 특히 디바이스가 언제든지 연결이 끊어지거나 연결될 수 있는 경우 더욱 그렇습니다. 이는 엣지 기반 네트워크의 확장성 이점을 유지하면서 훈련을 최적화하는 데 있어 중요한 다음 단계입니다.
분산형 네트워크의 일반적인 복잡성 또한 해결해야 합니다. 확장성을 극대화하려면 네트워크를 개방형 프로토콜(TCP/IP처럼 머신러닝 컴퓨팅을 위한 참여자 간의 상호 작용을 지정하는 일련의 표준 및 지침)로 구축해야 합니다. 이렇게 하면 소유자와 위치에 관계없이 특정 사양을 따르는 모든 디바이스가 네트워크에 연결할 수 있습니다. 또한 네트워크가 중립적인 상태를 유지하여 사용자가 선호하는 모델을 훈련할 수 있도록 합니다.
이러한 방식은 규모를 극대화하지만, 단일 개체에 의존하지 않고 모든 훈련 작업의 정확성을 검증할 수 있는 메커니즘도 필요합니다. 예를 들어, 특정 교육 과제를 완료했다고 주장하고 실제로는 완료하지 않는 등 부정행위에 대한 인센티브가 내재되어 있기 때문에 이는 매우 중요합니다. 특히 기기마다 머신러닝 작업을 수행하는 방식이 다르기 때문에 표준 복제 기법으로 정확성을 검증하기 어렵다는 점에서 이 문제는 특히 어렵습니다. 이 문제를 올바르게 해결하려면 암호화 및 기타 분야에 대한 심도 있는 연구가 필요합니다.
다행히도 이러한 모든 분야에서 계속 진전이 이루어지고 있습니다. 지난 몇 년과 비교하면 더 이상 극복할 수 없는 도전은 아닌 것 같습니다. 또한 기회에 비해서는 다소 작아 보이는데, Google은 분산형 학습이 잠재적으로 깨뜨릴 수 있는 부정적인 피드백 메커니즘을 지적한 DiPaCo 백서에서 다음과 같이 요약했습니다.
머신러닝 모델의 학습을 분산하는 데 있어 발전은 인프라의 단순화로 이어져 궁극적으로 컴퓨팅 자원의 더 넓은 가용성으로 이어질 수 있습니다. 컴퓨팅 리소스의 가용성 확대 현재 인프라는 대규모 모놀리식 모델 학습을 위한 표준 방법을 중심으로 설계된 반면, 머신러닝 모델의 아키텍처는 현재의 인프라와 학습 방법을 활용하도록 설계되어 있습니다. 이러한 피드백 루프는 커뮤니티를 실제 필요한 것 이상으로 계산 리소스가 제한되는 잘못된 로컬 최소값에 갇히게 할 수 있습니다.
아마도 가장 흥미로운 점은 이러한 문제를 해결하려는 연구 커뮤니티의 열의가 점점 커지고 있다는 것입니다. Gensyn의 우리 팀은 위에서 설명한 사이버 인프라를 구축하고 있습니다. Hivemind와 BigScience 같은 팀에서는 이러한 기술을 실제로 적용하고 있습니다. Petals, sahajBERT, Bloom과 같은 프로젝트는 이러한 기술의 힘과 커뮤니티 기반 머신 러닝에 대한 관심이 증가하고 있음을 보여줍니다. 이 외에도 더 개방적이고 협력적인 모델 트레이닝 생태계를 조성하기 위해 많은 프로젝트가 연구 발전을 주도하고 있습니다. 이 연구에 관심이 있으시다면 유니티에 문의하여 참여하시기 바랍니다.
이더리움 네트워크가 네이티브 수익을 제공하기 때문에 그는 ETH를 선택했습니다.
JinseFinance4월 15~16일에는 두바이에서 국제 포럼인 블록체인 라이프 2024가 올해의 메인 행사로 개최됩니다.
Joy91Porn 공식 트위터, AVAV가 곧 비트젯 이노베이션 존에서 거래될 예정이라고 밝혔습니다.
铭文老幺솔라나의 사가 휴대폰이 제공한 BONK 토큰 증정 이벤트는 놀랍게도 휴대폰 판매 가격을 뛰어넘어 수요와 시장 가치의 급등을 불러일으키며 변동성이 큰 암호화폐 기술의 시너지를 보여줬습니다.
Alex설문 조사는 엘살바도르의 주요 야당 신문 중 하나에서 나왔고 'Bitcoin President'의 자축 트윗을 촉발했습니다.
CryptoSlateMeta는 Meta의 Reality Labs가 작년 4분기에 매출의 17%를 잃었음에도 불구하고 Meta Quest VR 헤드셋을 배포하기 위해 중국 소프트웨어 회사인 Tencent와 계약했습니다.
Beincrypto수요일 현재 제안에 대한 압도적인 승인에도 불구하고 소셜 미디어의 많은 Terra 사용자는 네트워크가 LUNA 토큰을 소각할 것을 제안했습니다.
CointelegraphCointelegraph France의 공식 도입은 대표적인 유럽 블록체인 행사인 Paris Blockchain Week Summit에서 진행됩니다.
Cointelegraph