출처: 퀀텀
금융계가 딥시크에 대해 패닉에 빠지기까지 약 한 달이 걸렸지만, 패닉이 시작되자 엔비디아의 시가총액은 스타게이트 전체에 해당하는 5천억 달러(약 3조6천억 원) 이상 줄어들었습니다. 엔비디아뿐만 아니라 테슬라, 구글, 아마존, 마이크로소프트도 모두 시가총액이 감소했습니다.
스케일 AI의 최고 경영자인 알렉산더 왕에 따르면, 딥시크는 미국 연구소의 최고 모델에 필적하는 두 가지 AI 모델을 연달아 출시했습니다. 그리고 딥시크는 제한된 조건에서 작동하는 것으로 보이며, 이는 미국보다 훈련 비용이 훨씬 적게 든다는 것을 의미합니다. 최근 모델 중 하나를 훈련시키는 데 드는 최종 비용은 560만 달러(4060만 루피)에 불과하다고 하는데, 이는 미국의 AI 전문가 연봉과 거의 같은 수준입니다. 작년에 Anthropic의 CEO 다리오 아모데이는 모델 훈련 비용이 1억 달러(약 7,250만 루피)에서 10억 달러(약 7,251억 루피)에 달한다고 말했습니다. OpenAI의 GPT-4는 1억 달러(약 7억 2,500만 루피) 이상의 비용이 든다고 CEO 샘 알트먼은 말하며, 딥시크는 AI 비용에 대한 우리의 생각을 바꾸고 있으며 업계 전체에 큰 영향을 미칠 수 있을 것으로 보인다.
이 모든 일이 불과 몇 주 만에 일어났습니다. 크리스마스에 딥시크는 많은 주목을 받은 추론 모델(v3)을 출시했습니다. 두 번째 모델인 R1은 지난 주에 출시되었으며, 벤처 캐피털리스트이자 트럼프 대선 고문인 마크 안드레센은 "내가 본 것 중 가장 놀랍고 인상적인 돌파구 중 하나"라고 설명했습니다. 트럼프의 AI 및 암호화폐 전문가인 데이비드 삭스는 딥시크 모델의 발전이 "AI 경쟁이 매우 치열해질 것"이라는 것을 보여준다고 말했습니다. 두 모델 모두 학습 데이터를 제외하고는 부분적으로 오픈 소스입니다.
딥시크의 성공은 AI 경쟁에서 승리하기 위해 수십억 달러의 컴퓨팅 파워가 정말 필요한지에 대한 의문을 제기했습니다. 기존의 통념은 대형 기술 기업이 AI 분야를 지배할 것이라는 것이었는데, 이는 단순히 기술 발전을 쫓아갈 수 있는 여유 자금이 있기 때문이었습니다. 하지만 이제는 대형 기술 기업들이 막대한 자금을 소진하고 있는 것으로 보입니다. 이러한 모델의 실제 비용을 파악하는 것은 약간 까다로운데, Scale AI의 왕이 지적한 것처럼 딥시크는 제재 때문에 어떤 GPU를 얼마나 보유하고 있는지 솔직하게 말하지 못할 수도 있기 때문입니다.
허깅 페이스의 연구 책임자인 레안드로 폰 베라는 비평가들이 옳다고 해도 딥시크는 (냅킨 수학에 따르면 최적화 기술을 사용하고 있는 것으로 보아 진실을 말하고 있는 것으로 보입니다), 오픈 소스 커뮤니티가 이를 알아내는 데 오래 걸리지 않을 것이라고 말합니다. 그의 팀은 주말 동안 R1 레시피를 복제하고 오픈소스화하기 시작했으며, 연구원들이 자체 버전의 모델을 만들 수 있게 되면 "곧 숫자가 맞는지 알게 될 것"이라고 말했습니다.
딥시크란 무엇인가요?
2년 전 설립되어 CEO인 Wenfeng Liang이 이끄는 딥시크는 중국 최고의 인공지능 스타트업입니다. 저장대학교의 엔지니어들이 설립한 헤지펀드에서 분사한 이 회사는 "잠재적으로 판도를 바꿀 수 있는 아키텍처 및 알고리즘 혁신"에 초점을 맞춰 범용 AI(AGI)를 구축하는 데 주력하고 있습니다(적어도 렁은 그렇게 말합니다). OpenAI와 달리 이 회사는 또한 수익성이 있다고 주장합니다.
2021년 Leung은 미국이 칩에 대한 제재를 가하기 직전인 2023년에 "범용 AI의 본질 탐구", 즉 인간만큼 똑똑한 AI를 목표로 수천 개의 NVIDIA GPU를 구매하기 시작했고, 딥시크를 출범시켰습니다. OpenAI의 CEO인 알트만과 다른 업계 리더들처럼 렁도 원대한 목표를 가지고 있습니다. 렁은 인터뷰에서 "우리의 목표는 범용 AI"라며 "이는 제한된 자원으로 더 큰 모델 기능을 달성하기 위해 새로운 모델 아키텍처를 살펴봐야 한다는 것을 의미한다"고 말했습니다.
딥시크는 정확히 그렇게 했습니다. 이 팀은 모델을 보다 효율적으로 실행하기 위해 여러 가지 혁신적인 기술적 접근 방식을 사용했으며, R1의 최종 학습 실행 비용은 560만 달러(약 406억 원)였다고 주장합니다. 이는 OpenAI의 o1보다 95퍼센트나 낮은 비용입니다. 딥시크는 처음부터 다시 시작하는 대신 기존 오픈소스 모델을 기반으로 AI를 구축했으며, 특히 연구원들은 메타의 라마 모델을 기초로 사용했습니다. 딥시크의 학습 데이터 포트폴리오는 공개되지 않았지만, 합성 데이터나 인공적으로 생성된 정보를 사용했다고 언급했습니다(AI 연구소에서 데이터 병목 현상이 발생함에 따라 더욱 중요해질 수 있는 부분입니다).
훈련 데이터 없이는 이것이 어느 정도까지 o1의 "복사본"인지 명확하지 않습니다 - DeepSeek가 R1을 훈련하는 데 o1을 사용했을까요? "효과가 있는 것을 복제하는 것은 (상대적으로) 쉽다"는 것과 "효과가 있는지 모르는 상황에서 새롭고 위험하고 어려운 것을 하는 것은 극히 어렵다"는 것입니다. 따라서 딥시크는 새로운 첨단 모델을 만드는 것이 아니라 기존 모델을 복제할 뿐이라는 주장이며, OpenAI 투자자 조슈아 쿠슈너는 딥시크가 "실리콘밸리에서 선도적인 첨단 모델에 대한 훈련을 받았다"고 덧붙였습니다.
오픈AI 정책 연구원이었던 마일스 브런디지는 R1이 보다 효율적인 사전 훈련과 의식 연쇄 추론을 위한 강화 학습이라는 두 가지 핵심 최적화 기술을 사용했다고 말했습니다. 딥시크는 더 저렴한 GPU를 사용해 AI를 훈련하는 더 스마트한 방법을 찾았고, 그 중 하나는 AI가 시행착오를 통해 단계별로 "사고"해야 하는 새로운 기술(강화 학습)을 사용하는 것이 도움이 되었다고 합니다. 학습)을 통해 인간을 모방하지 않고 단계별로 문제를 '생각'하도록 하는 새로운 기술을 사용했습니다. 이러한 조합을 통해 모델은 더 적은 컴퓨팅 파워와 비용을 사용하면서 O1 수준의 기능을 달성할 수 있습니다.
"딥시크 v3와 그 이전의 딥시크 v2는 본질적으로 GPT-4와 동일한 모델이지만, GPU 측면에서 더 영리한 엔지니어링 트릭을 통해 더 많은 효과를 얻을 수 있습니다."라고 Brundage는 말합니다.
다른 연구소에서도 이러한 기술을 채택했다는 점에 주목할 필요가 있습니다(DeepSeek는 특정 쿼리에 대해 모델 기능의 일부만 활성화하는 '전문가 혼합'을 사용하며, GPT-4도 이 방식을 사용했습니다). 딥시크 버전은 이 개념을 혁신하여 더 세분화된 전문가 범주를 만들고 이를 보다 효율적으로 전달하는 방법을 개발하여 학습 프로세스 자체를 더 효율적으로 만들었습니다. 또한 딥시크 팀은 정보를 저장하고 검색하는 방식을 압축하여 AI 모델을 실행하는 데 필요한 메모리 양을 획기적으로 줄이는 DeepSeekMLA(다중 잠재 의식 인식)라는 기술을 개발했습니다.
세계를 놀라게 한 것은 이러한 모델의 아키텍처뿐만 아니라, AI의 주요 발전 사이에 통상 1년 이상 걸리는 것이 아니라 몇 달 만에 OpenAI의 성과를 빠르게 복제할 수 있었다는 사실이라고 브런디지는 덧붙였습니다.
OpenAI는 고급 AI를 구축할 수 있는 독보적인 기업으로 자리매김했으며, 이러한 대중적 이미지 덕분에 세계 최대 규모의 AI 데이터센터 인프라를 구축하기 위한 투자자들의 지지를 얻게 되었습니다. 그러나 딥시크의 빠른 부활은 회사가 그 방법을 비밀로 유지하려고 노력하더라도 기술적 우위가 오래 지속되지 않을 것임을 시사합니다.
"이 폐쇄적인 회사들은 어느 정도까지는 자신들이 가장 위대한 일을 하고 있다고 생각하는 사람들을 기반으로 생존하고 있으며, 그것이 그들의 가치를 유지하는 방법입니다. 더 많은 돈을 모으거나 더 많은 프로젝트를 구축하기 위해 약간 과장할 수도 있습니다."라고 폰 베라는 말합니다. "내부 강점을 과장하는지는 아무도 알 수 없지만, 분명 유리하게 작용하고 있습니다."
말하는 돈
투자 커뮤니티는 2022년 OpenAI가 ChatGPT를 출시한 이후 AI에 대한 환멸을 느꼈습니다. 문제는 우리가 AI 버블에 빠져 있느냐가 아니라 "버블이 정말 좋은 것인가?"입니다. (딥워터 자산운용은 2023년에 "버블은 부당하게 부정적인 의미를 부여받았습니다."라는 글을 썼습니다.)
투자자들이 AI의 작동 원리를 정확히 이해하고 있는지는 확실하지 않지만, 적어도 광범위한 비용 절감으로 이어질 것이라는 희망은 여전히 갖고 있습니다. 2024년 12월에 발표된 PwC 보고서에 따르면 설문조사에 참여한 투자자의 3분의 2가 AI가 생산성을 향상시킬 것으로 기대하며, 비슷한 수의 투자자가 수익도 증가할 것으로 예상했습니다.
이 과대광고 사이클에서 가장 큰 수혜를 입은 상장 기업은 AI 기업이 사용하는 복잡한 칩을 만드는 Nvidia입니다. 사람들은 AI 골드러시에서 엔비디아 주식을 사는 것이 삽을 만드는 회사에 투자하는 것이라고 믿습니다. 누가 AI 경쟁에서 승리하든, 모델을 실행하려면 많은 엔비디아 칩이 필요할 것입니다. 12월 27일 엔비디아의 주가는 137.01달러(993.42루피)로 2023년 1월 초의 거의 10배에 달하는 가격으로 마감했습니다.
딥시크의 성공은 엔비디아의 주가 급등을 이끈 투자 이론을 뒤집습니다. 회사가 실제로 칩을 더 효율적으로 사용한다면(단순히 칩을 더 많이 구매하는 것이 아니라) 다른 회사들도 같은 방식으로 칩을 사용하기 시작할 것입니다. 이는 기업들이 칩 사용을 줄이려 하기 때문에 엔비디아의 최첨단 칩 시장이 축소될 수 있음을 의미합니다.
"엔비디아의 성장 기대치가 다소 '낙관적'인 것은 사실이지만, 이는 필요한 반응이라고 생각합니다."라고 데이터브릭스의 인공 지능 담당 부사장인 나빈 라오는 말합니다. "엔비디아의 현재 매출은 위협받지 않을 것으로 보이지만, 지난 몇 년 동안의 괄목할 만한 성장은 영향을 받을 수 있습니다."
이 같은 투자 철학에 따라 움직이는 기업은 엔비디아뿐만이 아닙니다. 2023년 NVIDIA, Meta, Amazon, Tesla, Apple, Microsoft, Alphabet 등 '빅 세븐'은 나머지 시장을 압도하며 75%의 가치 상승을 기록했습니다. 이들은 2024년에도 놀라운 강세장을 이어가면서 Microsoft를 제외한 모든 종목이 S&P 500 지수보다 높은 수익률을 기록했습니다. 이 중 애플과 메타만이 딥시크 사태의 영향을 받지 않았습니다.
호황은 공개 시장에만 국한되지 않습니다. 벤처 캐피탈 회사들이 이 분야에 자금을 쏟아부으면서 OpenAI와 Anthropic 같은 스타트업은 각각 1,570억 달러와 600억 달러(약 43조 5,000억 원)라는 놀라운 기업 가치를 기록했습니다. 수익성은 큰 문제가 되지 않습니다. 오픈AI는 2024년 37억 달러(약 3조 6,800억 원)의 예상 매출에도 불구하고 50억 달러(약 3조 6,300억 원)의 손실을 예상하고 있습니다.
딥시크의 성공은 많은 기업과 투자자들이 생각하는 것처럼 단순히 많은 자금을 투입하는 것만으로는 보호받을 수 없다는 것을 보여줍니다. 이는 소규모 스타트업이 거대 기업과 경쟁할 수 있으며, 심지어 기술 혁신을 통해 알려진 선도 기업을 무너뜨릴 수도 있다는 것을 의미합니다. 따라서 거대 기업에게는 나쁜 소식이지만, 소규모 AI 스타트업에게는 오픈 소스 모델이라는 점에서 좋은 소식이 될 수 있습니다.
그러므로 거대 기업에게는 나쁜 소식이지만, 소규모 AI 스타트업에게는 좋은 소식이 될 수 있습니다. 특히 그들의 모델이 오픈 소스이기 때문입니다.Hugging Face의 폰 빌라는 더 저렴한 훈련 모델이 실제로 GPU 수요를 줄이지는 않을 것이라고 주장합니다. "더 작은 규모로 매우 강력한 모델을 구축할 수 있다면 왜 다시 확장하지 않을까요?" 그는 이렇게 물었습니다. "더 저렴하게 할 수 있는 방법을 알아냈으니, 더 많은 비용이 들더라도 더 나은 버전을 확장하여 구축하는 것은 어떨까요?"라고 말합니다.
최적화가 필요하다
그러나 딥시크는 투자 환경을 뒤흔들었을 뿐만 아니라, 딥시크 모델의 발전은 수출 규제가 있더라도 경쟁국이 미국의 최첨단 기술을 쉽게 따라잡을 수 있음을 보여주는 명확한 신호로 작용했습니다.
RAND Corporation의 전문가인 레나트 하임과 옥스퍼드 대학의 산업 정책 전문가인 시하오 황은 2023년 10월에 공식적으로 시작된 첨단 칩 수출 규제는 비교적 새로운 것이며 아직 그 영향이 완전히 느껴지지 않았다고 주장했습니다.
딥시크는 제한된 컴퓨팅 성능에도 불구하고 최적화를 통해 혁신을 이룰 수 있으며, 미국은 5,000억 달러(3,625.4조 원) 규모의 알트만-트럼프 파트너십을 통한 '스타게이트' 프로젝트 등 원천 역량에 막대한 베팅을 하고 있음을 보여줍니다. 알트만과 트럼프의 '스타게이트' 프로젝트.
"딥시크의 R1과 같은 추론 모델은 많은 수의 GPU를 사용해야 하는데, 딥시크가 더 많은 사용자에게 앱을 제공할 때 빠르게 문제에 부딪혔던 것처럼 말입니다."라고 브런디지는 말합니다. "이러한 점과 강화 학습을 확장하면 딥시크의 모델이 현재보다 훨씬 더 강력해진다는 사실을 고려할 때, 미국이 GPU에 대한 효과적인 수출 통제를 시행하는 것이 그 어느 때보다 중요합니다."
일각에서는 딥시크의 성과에 대해 회의적인 시각도 있습니다. 시티 애널리스트 아티프 말릭은 연구 노트에서 "최종 모델의 기반이 되는 대규모 언어 모델을 미세 조정하거나 구축하기 위해 고급 GPU를 사용하지 않고 딥시크의 성과가 이루어졌다는 점에 의문을 제기합니다."라고 말했습니다. 번스타인의 애널리스트 스테이시 래스강은 자신의 보고서에서 "'딥시크가 5백만 달러에 OpenAI를 복제했다'는 주장은 완전히 거짓으로 보이며, 더 이상 논의할 가치가 없다고 생각합니다."라고 말했습니다.
다른 사람들에게는 수출 규제가 경쟁국의 성장을 늦추는 대신 혁신을 강요한다는 점에서 비생산적인 것처럼 보입니다. 미국이 첨단 칩에 대한 접근을 제한하는 동안 딥시크와 알리바바의 통이첸첸(Tongyi Qianqian) 같은 기업은 자체 칩을 개발하면서 오픈소스 기술을 활용할 수 있도록 훈련 기술을 최적화하는 등 창의적인 해결책을 찾았습니다.
이것이 일반 AI에 어떤 의미가 있는지 궁금해하는 사람들도 있겠지만, 가장 정통한 AI 전문가들은 자본 유치를 위해 설계된 공중에 떠 있는 성에 불과하다는 데 동의합니다. (지난해 12월 OpenAI의 알트먼은 일반 AI의 기준을 "인류를 향상시킬 수 있는 것"에서 "사람들이 생각하는 것보다 훨씬 중요하지 않은 것"으로 낮춘 바 있습니다.) AI 초지능은 아직 상상의 산물이기 때문에, 딥시크가 그 방향으로 합리적인 발걸음을 내디뎠다는 것은 말할 것도 없고 그것이 가능한지조차 알기 어렵습니다. 그런 의미에서 이 회사의 고래 로고는 '아합스'(모비딕에 등장하는 가상의 인물)로 가득 찬 산업이라는 말이 맞습니다. 인공 지능의 종말은 누구나 추측할 수 있습니다.
미래의 AI 리더를 위한 요건
데이터 센터는 작은 나라 크기의 에너지를 소비하고, 훈련에는 수십억 달러의 비용이 들며, 거대 기술 기업만이 이 게임을 할 수 있다는 등 인공지능은 항상 과잉 개발의 이야기였습니다. 하지만 딥시크의 등장은 이러한 시각을 완전히 뒤집어 놓은 것 같습니다.
딥시크와 같은 모델은 훈련 비용을 낮춤으로써 환경 파괴적인 AI 문제를 해결할 수 있을 것 같지만, 안타깝게도 그렇게 간단하지 않습니다. 브런디지와 폰 빌라는 리소스의 효율성이 높아지면 기업이 더 많은 컴퓨팅 파워를 사용해 더 나은 모델을 만들 수 있다고 주장합니다. 또한 폰 빌라는 소규모 스타트업과 연구자들이 최고의 모델에 더 쉽게 접근할 수 있게 되어 컴퓨팅의 필요성이 더욱 커질 것이라고 말했습니다.
딥시크의 합성 데이터 사용은 혁신적인 것은 아니지만, AI 연구소가 인터넷 전체를 파괴하지 않고도 유용한 무언가를 만들 수 있다는 것을 보여줍니다. 하지만 인터넷은 하나뿐이고 이미 다음 세대의 기반이 될 훈련된 모델이 있기 때문에 이러한 파괴는 이미 이루어졌습니다. 합성 데이터는 더 많은 학습 데이터를 찾는 문제에 대한 완전한 해결책은 아니지만, 유망한 접근 방식입니다.
딥시크의 가장 중요한 장점은 비용이 저렴하다는 점입니다. 기술에 정통하지 않더라도 강력한 AI 도구가 곧 더 저렴해질 수 있다는 것을 이해할 수 있습니다. AI 리더들은 곧 진전이 있을 것이라고 약속했습니다. 한 가지 가능한 변화는 이제 누구나 자신의 차고에서 최첨단 모델을 만들 수 있다는 것입니다.
범용 AI 경쟁은 대부분 상상의 산물입니다. 그러나 돈은 현실이며, 딥시크는 돈만으로는 기업이 이 분야를 선도할 수 없다는 강력한 사례를 만들어냈습니다. 장기적인 영향력은 우리가 알고 있는 AI 산업을 재편할 수 있습니다.