지난 수요일, Anthropic의 CEO Dario Amodei는 딥시크의 성공이 미국을 위협하고 미국의 AI 칩 수출 규제가 효과가 없다는 것을 의미하는지에 대한 논쟁을 분석하는 장문의 글을 게시했습니다.
다음은 원문 글을 번역한 것으로, 여기서 '나'는 Dario Amodei를 지칭합니다.

사진 제공: Dario. Amodei
몇 주 전, 저는 미국이 중국에 대한 칩 수출 규제를 강화해야 한다고 주장한 바 있습니다. 그 이후 중국의 AI 기업 DeepSeek는 훨씬 저렴한 비용으로 미국의 최첨단 AI 모델 성능에 근접했습니다.
이 글에서는 딥시크가 앤서픽과 같은 미국 AI 기업에 위협이 되는지 여부에 초점을 맞추지 않겠습니다(미국 AI 리더십에 위협이 된다는 주장은 상당 부분 과장된 것이라고 생각하지만).1 대신 다음 사항에 초점을 맞추고자 합니다. 딥시크의 출시가 칩 수출 통제 정책의 근거를 약화시키는지 여부입니다. 저는 그렇게 생각하지 않습니다. 오히려 일주일 전보다 수출 통제 정책이 더 중요해졌다고 생각합니다.2
수출 통제는 미국이 AI 개발의 선두에 서도록 하는 중요한 목적을 가지고 있습니다. 이는 미국과 중국 간의 경쟁을 피하기 위한 방법이 아니라는 점을 분명히 할 필요가 있습니다. 궁극적으로 우리가 이기려면 미국 AI 기업이 중국보다 더 나은 모델을 가져야 합니다. 그럴 필요가 없는데도 우리의 기술적 우위를 중국에 양보해서는 안 됩니다.
AI 개발의 세 가지 주요 역학
정책적 주장을 하기 전에 AI 시스템을 이해하는 데 중요한 세 가지 기본 역학에 대해 설명하겠습니다.
확장 법칙. AI의 특성 중 하나는 (저와 공동 창립자들이 OpenAI를 개발할 때 처음으로 문서화했던) 다른 모든 것이 동일할 때, AI 시스템의 학습을 확장하면 다양한 인지 작업에 대해 전반적으로 결과가 향상된다는 것입니다. 예를 들어 100만 달러짜리 모델은 중요한 코딩 작업의 20%를, 1000만 달러짜리 모델은 40%, 1억 달러짜리 모델은 60%를 해결할 수 있습니다. 이러한 차이는 실제로는 학부생과 박사 과정 학생의 기술 수준 차이에 해당할 정도로 큰 영향을 미치기 때문에 기업들은 이러한 모델을 교육하는 데 많은 투자를 하고 있습니다.
커브의 변화. 현장에서는 더 효과적이고 효율적인 작업을 위해 크고 작은 아이디어를 끊임없이 쏟아내고 있습니다. 이는 모델 아키텍처의 개선(오늘날 모든 모델이 사용하는 기본 Transformer 아키텍처의 조정)이 될 수도 있고, 기본 하드웨어에서 모델을 더 효율적으로 실행하는 방법일 수도 있습니다. 최신 세대의 하드웨어도 마찬가지입니다. "컴퓨팅 승수"(CM)가 2배인 혁신이라면 코딩 작업의 40%를 1천만 달러가 아닌 5백만 달러로, 또는 코딩 작업의 60%를 1억 달러가 아닌 5천만 달러로 처리할 수 있게 되는 등 곡선이 바뀌는 경우가 종종 있습니다.
모든 첨단 AI 회사에서는 보통 소규모(~1.2배), 때로는 중간 규모(~2배), 때로는 매우 큰 규모(~10배)로 이러한 CM을 정기적으로 많이 찾습니다. 더 똑똑한 시스템의 가치가 매우 높기 때문에 이러한 곡선의 변화는 일반적으로 기업이 모델 학습에 더 많은 비용을 지출하도록 유도하며, 비용 효율성 향상은 결국 회사의 재정 자원에 의해서만 제한되어 더 똑똑한 모델을 학습하는 데만 사용하게 됩니다. 사람들은 자연스럽게 "처음에는 비싸다가 점점 더 저렴해진다"는 생각에 끌리게 되는데, 마치 AI가 일정한 품질을 가진 하나의 물건이고 가격이 저렴해지면 훈련에 더 적은 칩을 사용하게 될 것이라는 생각에 매료됩니다.
그러나 중요한 것은 스케일링 곡선입니다. 곡선이 움직일 때 곡선 끝의 값이 너무 높기 때문에 곡선을 더 빨리 통과할 뿐입니다. 2020년에 저희 팀은 알고리즘의 발전으로 인해 곡선이 매년 약 1.68배씩 변화하고 있다는 내용의 논문을 발표했습니다. 이 속도는 그 이후로 상당히 빨라졌을 것이며, 효율성이나 하드웨어를 고려하지 않은 수치이기도 합니다.
오늘날의 수치는 아마도 연간 4배 정도일 것으로 추정됩니다. 다른 추정치는 여기에 있습니다. 학습 곡선의 변화는 추론 곡선도 변화시키기 때문에 수년에 걸쳐 가격은 급격히 하락한 반면 모델 품질은 일정하게 유지되었습니다. 예를 들어, 기존 GPT-4 이후 15개월 후에 출시된 Claude 3.5 Sonnet은 거의 모든 벤치마크에서 GPT-4를 능가하는 반면, API 가격은 약 10배나 떨어졌습니다.
패러다임의 변화. 종종 확장되는 기본 콘텐츠에 변화가 생기거나 교육 중에 새로운 유형의 확장이 추가됩니다. 2020년부터 2023년까지 확장 기능의 대부분은 사전 훈련된 모델로, 모델은 점점 더 많은 양의 인터넷 텍스트로 훈련되고 그 위에 소량의 다른 훈련이 추가됩니다.2024년에는 강화 학습(RL)을 사용하여 모델을 훈련시켜 사고의 사슬을 생성하는 아이디어가 확장 기능의 새로운 초점이 되고 있습니다.
Anthropic, DeepSeek 및 기타 여러 회사(특히 9월에 o1의 프리뷰 모델을 출시한 OpenAI)는 이러한 종류의 훈련이 객관적으로 측정 가능한 특정 작업(예: 수학, 코딩 대회)과 이와 유사한 추론에서 성능을 크게 향상시킨다는 사실을 밝혀냈습니다. 과제.
이 새로운 패러다임은 일반적인 유형의 사전 훈련된 모델로 시작한 다음 두 번째 단계에서 RL을 사용하여 추론 기술을 추가하는 방식으로 이루어집니다. 중요한 점은 이러한 유형의 강화 학습은 새로운 방식이기 때문에 아직 확장 곡선의 초기 단계에 있으며, 모든 참가자가 두 번째 강화 학습 단계에 지출한 금액이 적다는 점입니다. 10만 달러가 아닌 100만 달러만 투자해도 큰 효과를 거둘 수 있습니다.
기업들은 이제 두 번째 단계를 수십억 달러는 아니더라도 수억 달러 규모로 빠르게 확장하고 있지만, 강력한 새 패러다임이 확장 곡선의 초기 단계에 있는 독특한 '크로스오버'에 있다는 점을 이해하는 것이 중요합니다. 확장 곡선 초기에 큰 이익을 빠르게 창출할 수 있습니다.
DeepSeek의 모델
위 세 가지 역학 관계는 DeepSeek의 최근 출시에 대한 이해를 돕습니다. 약 한 달 전, 딥시크는 위의 3번에서 설명한 첫 번째 단계인 순수 사전 학습 모델3인 '딥시크-V3'라는 모델을 출시했습니다. 그리고 지난 주에는 두 번째 단계를 추가한 'R1'을 출시했습니다. 외부에서 이 모델에 대한 모든 것을 파악하는 것은 불가능하지만, 두 버전에 대해 제가 가장 잘 이해하는 것은 다음과 같습니다.
DeepSeek-V3는 사실 한 달 전에 알아챘어야 할 진정한 혁신입니다(그리고 저희도 알아챘죠). 사전 훈련된 모델로서 여러 가지 중요한 작업에서 미국의 최신 모델 4종에 가까운 성능을 보이면서도 훈련 비용은 훨씬 저렴합니다(다른 여러 주요 작업에서는 Claude 3.5 Sonnet이 특히 우수한 성능을 보였지만요). 딥시크 팀은 엔지니어링 효율성에 초점을 맞춘 정말 인상적인 혁신을 통해 이를 달성했습니다. 특히 '키-값 캐싱'이라고 불리는 것을 관리하고 '전문가 블렌딩'이라고 불리는 방법을 이전보다 더 발전시키는 데 있어 혁신적인 개선이 있었습니다.
그러나 자세히 살펴볼 필요가 있습니다.
DeepSeek는 다음과 같이 말하지 않습니다. "미국 AI 기업들이 수십억 달러를 들여 달성하는 것을 600만 달러로 해낼 수 있습니다." 저는 Anthropic의 입장만 대변할 수 있지만, 클로드 3.5 소네트는 훈련에 수천만 달러가 드는 중형 모델입니다(정확한 수치는 밝히지 않겠습니다). 게다가 3.5 소네트의 훈련 방식은 일부 소문과 달리 더 크거나 더 비싼 모델을 사용한 것이 아닙니다. 소네트의 훈련은 9~12개월 전, 딥씽크의 모델은 11~12월에 이뤄졌고, 여러 내외부 평가에서 소네트가 여전히 앞서고 있습니다. 따라서 "DeepSeek는 7~10개월 전의 미국 모델 성능에 근접하는 모델을 훨씬 낮은 비용으로 생산하지만 사람들이 제시하는 비율에는 미치지 못합니다."
비용 곡선의 역사적 하락 추세가 연간 ~4배라면 현재 모델이 3.5 소네트/GPT-4o보다 3~4배 저렴하다는 뜻입니다. DeepSeek-V3가 미국 프론티어 모델보다 더 나쁘기 때문에 - 스케일링 곡선에서 ~2배 더 나쁘다고 가정하면, 이는 DeepSeek-V3에 상당히 관대하다고 생각합니다 - DeepSeek-V3의 학습이 이 1년 전에 개발된 현재 미국 모델보다 약 8배 저렴하다면, 이는 지극히 정상적이고 완벽하게 "트렌드에 부합"하는 것입니다.
수치를 제시하지는 않겠지만, 앞의 글머리 기호에서 알 수 있듯이 딥시크의 훈련 비용을 액면 그대로 받아들이더라도 기껏해야 트렌드에 맞는 수준이며, 심지어 트렌드에 맞지 않을 수도 있다는 것은 분명합니다. 예를 들어, 이는 기존 GPT-4와 Claude 3.5 소네트의 추론 가격 차이(10배)보다 적으며, 3.5 소네트는 GPT-4보다 더 나은 모델입니다. 이 모든 것을 고려할 때 DeepSeek-V3는 특별한 혁신이나 LLM 경제를 근본적으로 변화시키는 것이 아니라 지속적인 비용 절감 곡선에서 예상되는 지점이라는 것을 알 수 있습니다.
이번의 차이점은 예상되는 비용 절감 효과를 최초로 입증한 기업이 중국 기업이라는 점입니다. 이는 전례가 없는 일이며 지정학적 의미도 있습니다. 그러나 미국 기업들도 곧 그 뒤를 따를 것이며, 그들도 딥시크를 모방하는 것이 아니라 비용 절감이라는 일반적인 추세를 깨닫고 있기 때문에 그렇게 할 것입니다.
딥시크와 미국 AI 기업 모두 주요 모델을 훈련할 때보다 더 많은 돈과 칩을 보유하고 있습니다. 여분의 칩은 모델 뒤에 숨은 아이디어를 개발하기 위한 R&D에 사용되며, 때로는 준비가 되지 않았거나 여러 번의 시도가 필요한 대규모 모델을 훈련하는 데 사용됩니다. 보도에 따르면(사실인지는 확실하지 않습니다만) DeepSeek는 실제로 50,000개의 Hopper 세대 칩6을 보유하고 있으며, 이는 미국의 주요 AI 회사들이 보유한 것보다 약 2~3배 많은 것으로 추정됩니다(예: xAI보다 많음). "콜로서스" 클러스터).7 이 50,000개의 Hopper 칩은 약 10억 달러에 달합니다. 결과적으로 딥시크의 회사 전체 지출(개별 모델 훈련에 대한 지출이 아닌)은 미국 AI 연구소와 크게 다르지 않습니다.
모델마다 장단점이 있고, 스케일링 곡선 수치는 대략적인 평균으로 많은 세부 사항이 누락되어 있으므로 '스케일링 곡선' 분석은 다소 단순화되었다는 점에 유의할 필요가 있습니다. 저는 Anthropic의 모델에 대해서만 이야기할 수 있지만, 위에서 언급했듯이 Claude는 코딩을 매우 잘하고 사람들과 상호작용하는 스타일(많은 사람들이 개인적인 조언이나 지원을 받기 위해 사용하는 스타일)이 잘 설계되어 있습니다. 이러한 작업과 다른 여러 작업에서 DeepSeek는 경쟁 상대가 될 수 없습니다. 이러한 요소는 스케일링 수치에 나타나지 않습니다.
R1은 지난 주에 출시된 모델로, 많은 대중의 관심을 받았지만(엔비디아의 주가가 약 17% 하락하는 등) 혁신이나 엔지니어링 관점에서 보면 V3만큼 흥미롭지는 않습니다. 이전 섹션의 3번 항목에서 설명한 것처럼 두 번째 훈련 단계인 강화 학습을 추가하고 OpenAI가 o1에서 한 일을 본질적으로 복제합니다(비슷한 크기와 비슷한 결과를 보입니다)
8. style="text-align: 왼쪽;">하지만 확장 곡선의 초기 단계에 있기 때문에 여러 회사에서 강력한 사전 학습된 모델로 시작한다면 이러한 유형의 모델을 생성할 수 있습니다. V3의 경우 R1을 생산하는 데 매우 저렴할 수 있습니다. 따라서 당분간은 여러 회사가 좋은 추론 모델을 생산할 수 있는 흥미로운 '크로스오버 지점'에 있습니다. 모두가 이러한 모델의 확장 곡선을 더 높이 올라가면 이는 곧 사라질 것입니다.
수출 통제
위 내용은 제가 관심 있는 주요 주제인 중국으로의 칩 수출 통제에 대한 서문일 뿐입니다. 이러한 사실을 감안할 때, 저는 상황을 다음과 같이 보고 있습니다.
기업들이 강력한 AI 모델 학습에 점점 더 많은 돈을 투자하는 추세가 있습니다. 특정 수준의 모델 지능을 훈련하는 데 드는 비용이 급격히 감소하기 때문입니다. 더 똑똑한 모델을 훈련하는 데 드는 경제적 가치가 너무 커서 비용 절감분이 거의 즉시 소진되기 때문에 처음에 계획했던 것과 동일한 금액으로 더 똑똑한 모델을 만드는 데 재투자됩니다.
DeepSeek가 개발한 효율성 혁신은 곧 미국과 중국의 연구소에서 미국 연구소가 아직 발견하지 못한 방식으로 수십억 달러 상당의 모델을 훈련하는 데 적용될 것입니다. 이러한 모델은 이전에 계획했던 수십억 달러 상당의 모델보다 성능이 뛰어나지만 여전히 수십억 달러의 비용이 소요될 것입니다. 거의 모든 분야에서 거의 모든 인간보다 더 똑똑한 AI가 나올 때까지 그 숫자는 계속 늘어날 것입니다.
거의 모든 면에서 인간보다 더 똑똑한 AI를 만들려면 수백만 개의 칩과 최소 수백억 달러가 필요하며 2026~2027년에나 가능할 것으로 예상됩니다. 딥시크의 출시는 이러한 계산에 항상 고려되어 왔던 예상 비용 절감 곡선에 거의 근접해 있기 때문에 이러한 사실을 바꾸지는 않을 것입니다.
이 말은 2026~2027년에 우리는 두 가지 매우 다른 세상에 있을 수 있다는 뜻입니다. 미국에서는 여러 회사가 수백억 달러의 비용을 들여 필요한 수백만 개의 칩을 확실히 확보할 것입니다. 문제는 중국도 수백만 개의 칩에 접근할 수 있느냐는 것입니다.9
그렇다면 우리는 미국과 중국 모두 과학과 기술의 놀라운 속도를 주도할 강력한 AI 모델, 즉 제가 "데이터 중심 천재"라고 부르는 양극의 세계에서 살게 될 것입니다. "데이터 중심의 천재 국가"라고 부릅니다. 양극의 세계가 언제까지나 균형을 유지하지는 않을 것입니다. 미국과 중국이 AI 시스템 측면에서 대등하게 경쟁하더라도 대규모 산업 기반을 갖춘 중국이 AI뿐 아니라 모든 분야에서 글로벌 무대를 장악할 수 있습니다.
중국이 수백만 개의 칩을 확보하지 못한다면 우리는 (적어도 일시적으로는) 미국과 그 동맹국들만 이러한 모델을 보유한 단극의 세계에서 살게 될 것입니다. 단극적 세계가 지속될지는 확실하지 않지만, AI 시스템이 결국 더 똑똑한 AI 시스템을 만드는 데 도움이 될 수 있기 때문에 일시적인 우위가 지속적인 이점으로 바뀔 가능성은 있습니다. 결과적으로 미국과 그 동맹국들이 세계 무대를 장악하고 오랫동안 앞서 나갈 수 있는 세상이 될 것입니다.
수출 통제11의 엄격한 집행만이 중국이 수백만 개의 칩을 확보하는 것을 막을 수 있으며, 따라서 단극 세계가 될지 양극 세계가 될지를 결정하는 가장 중요한 요소입니다.
딥시크의 성과가 수출 통제가 실패했다는 것을 의미하지는 않습니다. 앞서 말했듯이 딥시크는 보통에서 많은 수의 칩을 보유하고 있기 때문에 강력한 모델을 개발하고 훈련할 수 있었다는 것은 놀라운 일이 아닙니다. 그들의 자원 제약은 미국 AI 회사보다 심각하지 않으며, 수출 통제가 그들의 '혁신'을 이끄는 주요 요인은 아닙니다. 그들은 단지 매우 재능 있는 엔지니어들이며 중국이 왜 미국의 강력한 경쟁자인지를 보여줍니다.
DeepSeek가 지금까지 보고한 칩을 살펴보는 것도 유익합니다. 세미애널리시스에 따르면 H100, H800, H20이 혼합되어 총 50,000개에 달합니다. H100은 출시 이후 수출 통제가 금지되었기 때문에 딥시크에 칩이 있다면 일반 채널을 통해 들어온 것이 아닐 것입니다(엔비디아는 딥시크의 진행 상황이 "수출 통제를 완전히 준수하고 있다"고 밝혔습니다.) H800은 2022년 1차 수출 통제에서 허용되었습니다. H800은 2022년 1차 수출 통제에서 허용되었지만 2023년 10월 통제 업데이트에서 금지되었으므로 이 칩은 금지 이전에 출하되었을 수 있습니다.H20은 훈련 효율이 낮고 샘플링 효율이 높지만 여전히 허용되지만 금지되어야 한다고 생각합니다.
이 모든 것을 종합해 볼 때 딥시크의 AI 칩 기반 중 상당 부분이 아직 금지되지 않은(그러나 금지되었어야 하는) 칩으로 구성되어 있는 것으로 보입니다. 이는 수출 통제가 실제로 작동하고 적응하고 있으며 허점이 폐쇄되고 있음을 시사합니다. 허점을 충분히 빨리 메울 수 있다면 미국이 단극 세계를 주도할 가능성을 높일 수 있을 것입니다.
수출 통제와 미국의 국가 안보에 초점을 맞추고 있는 저는 분명히 말씀드리고 싶습니다. 저는 딥시크 자체를 적이라고 생각하지 않으며, 특별히 딥시크에 초점을 맞추고 있지도 않습니다. 그들이 한 인터뷰를 보면 그들은 유용한 기술을 개발하려는 똑똑하고 호기심 많은 연구자들처럼 보입니다.
그러나 수출 통제는 중국이 미국을 따라잡는 것을 막을 수 있는 가장 강력한 도구 중 하나입니다. 점점 더 강력하고 비용 효율적인 기술이 수출 통제를 해제해야 하는 이유라는 생각은 완전히 정당화될 수 없습니다.
각주
[1] 이 글에서는 서구 모델 개량에 대한 보고에 대한 입장을 밝히지 않겠습니다. 여기서는 딥시크가 논문에서 말하는 방식으로 훈련한다는 딥시크의 말을 그대로 받아들일 뿐입니다.
[2] 그런데 딥시크 모델의 출시가 엔비디아에 나쁜 일이 아니라는 것은 분명하며, 그 결과 주가가 두 자릿수(~17%) 하락한 것은 의아한 일이라고 생각합니다. 이번 출시가 엔비디아에 나쁜 일이 아닌 이유는 인공지능 회사에 나쁜 일이 아닌 이유보다 훨씬 더 분명합니다. 하지만 이 글의 주된 목표는 수출 통제 정책을 옹호하는 것입니다.
[3] 정확히 말하면, 추론의 패러다임이 바뀌기 전 모델에 일반적으로 사용되는 소량의 RL 학습이 포함된 사전 학습된 모델입니다.
[4] 일부 매우 좁은 작업에서 더 강력한 성능을 발휘합니다.
[5] 이 수치는 DeepSeek 논문에서 인용한 수치이며, 미국 기업의 모델 학습 비용과 비교한 것일 뿐입니다. 특정 모델 훈련 비용(600만 달러)과 총 R&D 비용(훨씬 더 높음)의 차이를 비교한 것입니다. 그러나 600만 달러에 대해서는 완전히 확신할 수 없습니다. 모델 크기는 검증할 수 있지만 다른 측면(예: 토큰 수)은 검증할 수 없기 때문입니다.
[6] 일부 인터뷰에서는 "50,000개의 H100"을 가지고 있다고 했는데, 이는 이야기를 미묘하게 잘못 요약한 것이므로 여기서 바로잡고자 합니다. 지금까지 가장 잘 알려진 '호퍼 칩'은 H100이지만(저는 그렇게 생각합니다), 호퍼에는 H800과 H20도 포함되며, DeepSeek는 이 세 가지를 모두 혼합하여 총 50,000개를 보유하고 있는 것으로 알려졌습니다. 그렇다고 해서 상황이 크게 달라지지는 않지만 수정할 가치가 있습니다. 수출 통제에 대해 이야기할 때 H800과 H20에 대해 더 자세히 이야기하겠습니다.
[7] 참고: 수출 통제로 인해 차세대 클러스터에서는 이 격차가 상당히 확대될 것으로 예상합니다.
[8] R1이 많은 관심을 받은 주된 이유 중 하나는 모델이 제시한 아이디어의 추론을 사용자에게 처음으로 보여줬기 때문이라고 생각합니다(OpenAI의 o1은 최종 답만 보여줌). 딥시크는 사용자가 관심을 보인다고 제안합니다. 이는 사용자 인터페이스의 선택 사항이며 모델 자체와는 아무런 관련이 없음을 분명히 해야 합니다.
[9] 중국의 자체 칩은 조만간 미국산 칩과 경쟁할 수 없을 것입니다.
참고:
[1] https://techcrunch. com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-intended-as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-control