출처: Silicon Stance
몇 달 전, 한 과학자가 강력한 인공지능을 통해 인류의 신체적, 정신적 건강, 정신 질환, 빈곤, 평화, 일과 삶의 의미를 모두 해결하겠다는 자신과 회사의 선한 의도를 밝히는 기사를 썼습니다. 몇 달 후, 같은 과학자가 갑자기 중국의 인공지능 개발을 제한하고 인공지능의 '단극적 세계'를 유지하기 위해 미국 칩을 중국에 수출해서는 안 된다고 강력히 촉구하는 글을 발표합니다(그런 용어를 적나라하게 사용한다는 사실에 충격을 받았습니다). 이는 어떻게 보든 냉혹하고 위선적으로 느껴집니다.
문제의 인물은 이탈리아계 미국인, 신경물리학 박사, 베테랑 AI 과학자, 전 OpenAI 연구팀의 영혼 중 한 명, 중국 기업 바이두의 딥러닝 연구소의 초기 직원, 가장 강력하고 안전한 AI를 만들고 있다고 주장하는 이상주의자, OpenAI의 가장 중요한 연구원 중 한 명인 AI 회사 Anthropic의 설립자이자 CEO인 다리오 아모데이(Dario Amodei)입니다. 이상주의자이자 OpenAI의 가장 중요한 경쟁자의 설립자이며, 현재 중국 AI의 모든 측면에 대한 미국의 금수 조치를 가장 강력하게 요구하고 있는 인물입니다.
안트로픽과 클루드 모델 제품군은 중국에서 대중적 인지도가 상당히 낮았지만, 결국 AI 애플리케이션 개발자를 위한 대규모 언어 모델을 제공하는 세계에서 가장 인기 있는 업체였으며, 중국의 AI 연구자와 개발자들 사이에서 꽤 많은 팔로워를 보유하고 있었습니다. 하지만 하룻밤 사이에 중국의 많은 AI 실무자들은 앤서픽과 아모데이가 기본적인 존경심을 잃었다고 입을 모았습니다.
이것이 바로 '디아트리브'의 효과입니다.
'딥시크와 수출 규제'라는 제목의 이 글에서 다리오 아모데이는 미국 AI를 뒤흔든 딥시크의 성공이 과장되었다는 사실을 밝히고, 딥시크-V3 모델의 혁신은 인정하면서도 딥시크의 추론 모델인 R1의 더 큰 이야기는 인정하지 않겠다고 단호히 말합니다. 더 큰 센세이션을 일으킨 딥시크의 추론 모델인 R1(이 문제에 대한 그의 생각은 이 글의 뒷부분에서 논의의 초점이 됩니다). 그가 더 인정하기 꺼려하는 것은 산술적 비용과 알고리즘 효율성 측면에서 딥시크 모델의 결과, 즉 '근거 없는' 딥시크 루머인 5만 개의 밀수된 엔비디아 A100, H100 및 H800 그래픽 카드에 대한 루머입니다. 5만 개의 밀수된 NVIDIA A100, H100 및 H800 그래픽 카드에 대한 소문은 600만 달러의 저렴한 비용으로 DeepSeek-V3 모델을 훈련할 수 없음을 증명하는 데 사용되었습니다. 분명히 아모데이는 산술 연산력 스태킹의 대안으로 점점 더 많이 받아들여지고 있는 알고리즘 효율성 혁신이라는 딥시크의 길을 받아들일 수 없었기 때문에 딥시크가 대량의 하이엔드 그래픽 카드를 밀반입했다는 입증되지 않은 전제를 가지고 이 논리를 실현하기 위해 많은 노력을 기울였지만, 이는 본인도 입증되지 않았다는 것을 알고 있습니다. 그러나 그는 이어서 중국 컴퓨팅 파워에 대한 미국의 수출 통제가 실패하지 않았다고 말하며, 자신의 이전 주장이 딥시크의 밀수라는 가정에 기초하고 있다는 사실을 잊은 듯합니다.
<그림 style="text-align: 가운데;">

출처: https: //darioamodei.com/on-deepseek-and -export-controls
다시 그의 주장의 논리로 돌아가 보자: DeepSeek의 영향력은 과장되어 있습니다 - V3는 실제로 혁신적이지만 비용이 그렇게 적게 들지는 않았을 것입니다 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - . -- 칩을 밀반입했다고 들었는데, 그래서 훈련에 더 많은 비용을 들였을 것이다 -- DeepSeek는 독창적인 것이 아니라 우리의 연구에 기반한 것이므로 당연히 비용이 더 적게 든다! -- R1 추론 모델은 확실히 혁신적이지 않으며, 단지 o1의 결과를 재현할 뿐입니다(OpenAI가 이미 DeepSeek의 추론 결과가 독립적인 발견이라는 것을 인정한 것을 모르는 척하십시오) -- 수출 통제는 무효화되지 않으며, 당연히 그렇습니다(자신을 잊어버리십시오). 이전 주장은 DeepSeek가 밀수 된 그래픽 카드를 얻는다는 전제하에)-우리는 AI의 단극 세계를 만들고 싶고 중국은 우리 수준의 모델을 만들 수 없을 것입니다 (처음에 DeepSeek를 두려워해서는 안된다고 말한 것을 잊어 버리십시오). 따라서 H20과 H100은 말할 것도없고 가장 낮은 사양의 H800은 중국에 수출 할 수 없으므로 중국이 이길 수 없습니다.
논리와 추론이 전부인 과학자가 정당화될 수 없지만 모든 면에서 형식적, 논리적으로 추론되어야 하는 결론을 1만 단어짜리 에세이로 주장하려고 하는 것은 매우 어설프고 위선적으로 보입니다.
다리오 아모데이가 중국의 산술에 대한 더 엄격한 통제를 요구한 것은 이번이 처음은 아니며, 미국인 AI 과학자에게 중국에 대한 선천적 선의를 요구할 수는 없지만, 그는 특히 딥시크가 실리콘밸리에서 받은 광범위한 관심과 인정, 어느 정도의 공포를 배경으로 중국의 산술 수출에 대한 추가 통제를 주장하고 있습니다. 산술 효율성 최적화와 모델 추론 방법에서 딥시크의 혁신은 주목하고 분석할 만한 가치가 있는 현상입니다. 그가 중국에 친절할 것이라고 기대하는 사람은 아무도 없지만, 그가 중국과 중국 태생의 AI 기업인 딥시크에 대해 그토록 많은 악의와 분노를 가지고 있다는 사실은 흥미롭게 지켜볼 만합니다.
다리오 아모데이는 왜 딥시크-R1을 "좋아하지 않는가?"?
딥시크-V3를 학습시키는 데 600만 달러 이상의 비용이 들 것이라는 추측에도 불구하고, 다리오 아모데이는 V3가 진정한 혁신임을 인정하면서도 획기적인 것이 아니라 "지속적인 비용 절감의 곡선에서 예상되는 지점"이라고 강조해야 합니다. 차이점은 "획기적이지 않다는 점"이라고 그는 주장합니다. 그는 "예상되는 비용 절감을 최초로 입증한 기업이 중국 기업이며, 이는 전례가 없는 일이고 지정학적으로 중요한 의미를 갖는다는 점에서 차이가 있다"고 주장합니다. 이런 식으로 사람들을 칭찬하고 진정성을 보이지 않는 것은 정말 보기에 피곤합니다. 차라리 아모데이가 "미국 기업들이 모델 가격을 낮추는 혁신을 이루고 있는데, 딥시크가 이를 최초로 해냈다"라고 말하는 걸 보고 싶지만, 무뚝뚝함은 그의 특성이 아닙니다.
R1에 관해서는 아모데이는 더 솔직해서, 강화학습 모델인 o1과 o3을 학습시킨 OpenAI가 R1이 강화학습 방법론의 획기적인 발전이라는 점을 인정했음에도 불구하고 R1이 오류의 여지가 없는 획기적인 모델이라는 점을 인정하지 않았고, DeepSeek의 강화학습이 새로운 방법론이 필요 없다고 지적하는 사람들에게 관심이 없는 척했다. 딥시크의 강화 학습은 인간의 피드백이 필요 없으며 대규모 언어 모델에 있어 '알파고의 순간'이라고 할 수 있습니다. 그는 R1은 V3 위에 강화 학습을 얹은 것일 뿐이고, 모든 동작이 o1을 복제하고 있으며, 모든 미국 AI 회사가 이 분야에서 추론을 시도하고 있고, 이는 기술 트렌드이며, 오픈소스와는 아무런 관련이 없으며, 단지 딥시크가 먼저 해냈을 뿐이라고 주장했습니다.
아모데이의 거친 발언에 당황할 필요는 없습니다. AI 분야에서 인정받고 뛰어난 연구자로서 여러 주요 이슈에 대한 아모데이의 견해는 AI 업계, 벤처 캐피탈 커뮤니티, 월스트리트, 심지어 워싱턴 DC에서 DeepSeek 현상을 인식하는 방식에 큰 영향을 미칠 수 있기 때문입니다. 그래서 그는 뛰어들 수밖에 없었습니다. 오랜 인연을 맺어온 오픈AI에 섭섭한 게 아니라, 자신이 설립한 앤트로픽이 이 시점에서 다음 단계로 나아갈 수 있는 발판을 마련하기 위해 나서야 했다는 것이다.
한 가지 주목할 만한 사실은 아직 공식적인 추론 모델을 공개하지 않았다는 점입니다. 이는 다리오 아모데이가 인터뷰에서 독립형 추론 모델을 경멸한다고 밝혔음에도 불구하고, 물론 당시 그의 주요 타깃은 OpenAI였습니다.
아모데이의 견해는 추론이 그렇게 어렵지 않으며 기본 모델이 더 중요하다는 것입니다. 프로그래밍 등에 대한 리뷰에서 딥서치-V3가 혁신적이지만 여전히 자신의 클로드 3.5 소네트 모델보다 약하다고 암묵적으로 칭찬한 것과 마찬가지로, 그는 공개적으로 o1이 이룬 혁신을 인정했지만 강화 학습이 모델의 추론을 향상시키는 최선의 방법이라고 생각하지 않았습니다. 그는 일부 특정 시나리오와 사례에서 사전 학습된 모델인 클로드 3.5 소네트가 o1에 비해 결코 약하지 않은 추론 능력을 보여줬다고 말했습니다. 따라서 그는 추론과 일반 모델을 분리해야 한다고 생각하지 않으며, 추론 기능을 포함하기 위해서는 사전 학습된 기본 모델이 더 중요하다고 생각합니다.
따라서 Anthropic은 OpenAI 및 DeepSeek와는 다른 방식으로 추론 능력을 모델링할 계획이며, 이는 Claude의 차세대 플래그십 기반 모델에 반영될 가능성이 매우 높습니다. 강화 학습 방법(아모데이의 표현을 빌리자면) - 이는 OpenAI o1의 생각의 사슬(CoT)이나 DeepSeek R1의 획기적인 AI 자율 강화 학습과는 크게 다른 경로입니다.
오픈AI에서 완전히 벗어나 오픈AI를 가장 직접적인(그리고 거의 유일한) 경쟁자로 간주하는 아모데이는 어떤 의미에서 오픈AI의 일련의 빅 언어 모델링 개념을 가장 근본주의적으로 고수하고 있으며, 훈련 데이터가 마르면 사전 훈련이 "벽에 부딪힌다"는 사실을 반복해서 부인해 왔습니다. 아모데이는 학습 데이터가 고갈되면서 사전 학습이 '벽에 부딪히고' 스케일 효과가 줄어든다는 사실을 거듭 부인하며 고전적인 '스케일링 법칙'(즉, 모델 크기가 지속적으로 증가하면 성능이 향상된다는 것)의 중요성을 거듭 강조해왔습니다. 앤트로픽은 스케일링 법칙과 사전 학습된 모델의 병목 현상을 해소하고 더 강력한 추론 기능을 갖춘 차세대 플래그십 사전 학습 모델을 도입하기 위해 노력하고 있습니다.
그러나 아직까지 앤트로픽은 이를 출시하지 않았습니다. 뛰어난 모델 훈련 실적과 향후 릴리스를 망친 적이 없다는 점을 고려할 때, Anthropic이 추론 강화 사전 훈련 모델을 열심히 준비하여 OpenAI의 o1이 추론 향상을 위한 최선의 경로가 아니라는 것을 증명하기 위해 노력하고 있다고 믿는 것이 합리적입니다. 하지만 딥서치-V3의 출시와 함께 갑자기 한꺼번에 증명해야 할 것이 많아졌습니다.
즉, Anthropic이 더 강력한 추론을 통해 사전 훈련된 새로운 모델을 도입하면 과거보다 훨씬 더 복잡한 질문에 답해야 할 것입니다: 왜 강화 학습을 기본 훈련 모드로 사용하지 않는가? R1으로 대표되는 자율 강화 학습에 비해 인간의 피드백 기반 강화 학습의 장점은 정확히 무엇일까요? 또한 훈련 비용은 얼마인가요? 더 저렴하고 효율적인 방법이 있으며 API 가격이 내려갈 수 있나요? (클로드 API는 세계에서 가장 비싸고, 딥시크는 거의 가장 저렴합니다)
이 모든 까다로운 질문과 번거로움을 딥시크가 해결해 드립니다.
따라서 더 강력한 새 모델을 출시하기 전에 Anthropic의 '영혼'인 Dario Amodei는 DeepSeek-R1이 혁신적이고 획기적인 제품이며 비용 효율적인 문제 해결 방법이라는 선입견을 최소화하고 불식시키기 위해 노력해야 했습니다. 혁신과 돌파구라는 것은 인정할 수 없고, 실제로 비용이 적게 든다는 것도 인정할 수 없습니다.
<그림 style="text-align: 가운데;">

다리오 아모데이 (출처: 위키백과)
두 줄로 요약하면 다음과 같습니다. "너는 죽고 나는 산다". 이 두 가지 경로는 어느 정도는 대규모 언어 모델의 "사전 훈련 후 시대"에 있으며, 고전적인 실리콘 밸리 모델 훈련과 중국 모델 훈련의 두 가지 경로 : 전자는 산술 스택 미학의 거친 폭력의 장점의 산술 자원을 통해 모델 성능을 향상시키고 후자는 아키텍처 및 엔지니어링의 혁신을 통해 초점을 맞춘 알고리즘 효율성으로 훈련 비용을 절감합니다. 아키텍처 및 엔지니어링 혁신을 통해 학습 비용을 절감하고 모델 성능을 개선합니다.
오픈AI보다 훨씬 더 산술적 규모, 모델 규모, 폭력적인 미학을 옹호하는 Dario Amodei의 이 새로운 글은 딥시크에 대한 악의를 암묵적으로 드러낼 뿐만 아니라 그 악의를 중국의 전체 AI 분야에 부끄럼 없이 투사하는 결과를 낳았습니다.
다리오 아모데이는 왜 산술적 수출 통제에 집착하는가?
다리오 아모데이가 중국의 산술 수출 통제를 강화해야 한다고 공개적으로 요구한 것은 이번이 처음이 아니며, 이전에도 여러 인터뷰에서 산술 수출 통제가 필요하고 강화해야 한다는 견해를 밝힌 바 있습니다. 미국의 친구들은 이에 대해 후회해서는 안 되며, 중국의 친구들도 그가 일관되게 그래왔듯이 이에 대해 분노할 필요는 없습니다.
그러나 '딥서치 효과'를 염두에 두고 아모데이가 중국의 산술 통제를 더욱 강화할 것을 촉구하는 수천 자의 글을 쓰는 데 시간을 허비하지 않고 딥서치의 추세를 인용하며 중국 AI가 미국과 대등한 수준이 될 수 있다는 점을 언급한 것은 흥미롭습니다. 미국의 과학자나 기업가가 중국에 대해 지나치게 가깝거나 적대적인 태도를 공개적으로 표명할 때는 개인적인 열망이 우선시됩니다.
앵트로픽이 무엇인지 잠시 다시 살펴봅시다.
이 회사는 의심할 여지 없이 현재 미국과 세계 최고의 AI 회사이며(때로는 그 중 하나가 아닐 수도 있습니다), 다리오 아모데이는 이 회사의 기술적 영혼입니다. 그는 딥시크를 폄하하고 산술 능력에 대한 수출 규제에 대해 이야기하는 모순과 수줍음보다는 AI 비전과 한계에 대해 이야기하고 특정 AI 용어와 이론을 설명할 때 설득력 있는 이성, 절제, 명확성, 정확성을 보여주며 전 동료이자 기술 지식이 떨어지는 것으로 인정되는 OpenAI의 최고 경영자인 샘 알트먼보다 훨씬 더 설득력 있게 이야기합니다. 훨씬 더 그렇죠.
오픈AI의 주요 경쟁자인 앤트로픽의 가장 기억에 남는 꼬리표는 '보안'이며, 오픈AI가 가장 많은 비판을 받았던 것도 바로 이 부분입니다. 물론 인간의 피드백에 기반한 강화학습(RLHF)을 모델 학습의 전 과정에 내재화한다는 의미의 '헌법적 AI' 원칙을 내재화하는 등 안전을 위해 많은 노력을 기울여 왔습니다. '안전성'은 Anthropic의 장점이자 때로는 책임이기도 합니다.
2024년 엔터프라이즈 시장에서 OpenAI의 시장 점유율 15%를 차지한 것은 Sonnet 3.5 모델의 강력한 성능 덕분이기도 하지만 '안전'을 내세운 덕분이기도 합니다. 하지만 생각해 보면 '보안'의 주요 구매자는 기업 사용자 말고 누가 또 있을까요?
정답은 분명합니다: 정부입니다. 정확히 말하면 미국 정부입니다.
그러나 연방 정부 및 관련 부서의 후발주자인 앤트로픽은 연방 정부 및 관련 부서 프로젝트에 참여하는 데 있어 OpenAI만큼 좋은 평가를 받지 못했습니다. 트럼프 2.0 시대의 첫 번째 대형 AI 프로젝트인 스타게이트는 백악관에서 진행했는데, 이 프로젝트의 주체는 앤트로픽이 아닌 OpenAI와 소프트뱅크였습니다.
<그림 style="text-align: 가운데;">

다보스에서의 다리오 아모데이의 즉각적인 발언에도 불구하고 다리오 아모데이는 트럼프 행정부의 스타게이트를 "엉망"이라고 즉각 조롱했지만, 미국 정부가 주도하는 프로젝트에 앤트로픽만큼 참여하고 싶어하는 AI 기업은 없다는 것은 분명합니다.
한편으로 다리오 아모데이는 트럼프의 공식 취임식 직전인 1월 6일 월스트리트저널에 "트럼프는 미국의 AI 리더십을 보장할 수 있다"는 기고문을 게재하며 적극적인 협력을 촉구했습니다.
과거에는 투명성, 설명 가능성, 윤리를 기술과 제품의 근간으로 삼는 회사의 이상주의적 빛 때문에 앤서픽에 초기 구글의 느낌이 있다고 순진하게 생각하곤 했었습니다. 하지만 초기 Google은 창업자와 팀의 가치관에 이러한 원칙이 내재되어 있었으며, 이를 실현하기 위해 규제와 경영진의 의지를 옹호하지 않았고, 구글의 두 창업자는 백악관 구매자와 연대하려는 시도를 한 적이 없습니다. 하지만 다리오 아모데이는 그렇지 않았습니다.
어떤 의미에서 연방 정부의 대형 계약을 따내는 데 열중하고, 국가적인 AI '프로젝트'에 참여하기를 원하고, 바이든 내각에서 무조건적으로 AI 규제를 지지하고, 트럼프 당선 이후 미국의 AI 리더십을 지켜줄 구세주처럼 트럼프를 선전했던 다리오 아모데이는 사실상 생태적 고립에 갇혀 있는 셈이죠. 생태적 고립. 그는 미국 AI 정책 결정의 이너 서클에 속해 있지는 않지만, 그 안에 들어가기를 간절히 원하고 있기 때문에 그 티켓을 얻기 위해 더 급진적이고 단호한 자세를 보여줄 필요가 있습니다.
이 시점에서 딥시크가 나타나 강화 학습 경로에서 그를 약간 망쳐 놓았지만 중국의 AI 개발을 억제하기 위해 급진적 인 발언을 할 수있는 좋은 기회를 제공했으며 Anthropic의 모델 학습 경로는 산술 더미의 규모를 확장하는 데 의존하므로 알고리즘 효율성과 엔지니어링 최적화가 실제로 산술 전력 비용을 줄일 수 있다고 믿기를 꺼려하고 대신 다음과 같이 믿습니다. 산술 능력의 목은 중국 AI의 앞길을 가로막을 수 있습니다. 반면에 이 제안은 백악관이 가장 쉽게 이해하고 받아들일 가능성이 가장 높습니다. 따라서 아모데이가 컴퓨팅 파워에 대한 더 강력한 수출 통제를 요구하는 데 집착하는 것은 놀라운 일이 아닙니다.
오픈AI의 샘 알트먼이나 앤트로픽의 다리오 아모데이, 심지어 메타의 주커버그와 스케일닷에이아이의 알렉산드르 왕 등 미국의 차세대 AI 기업의 중심에 있는 사람들만 AI에 대한 이해관계가 있는 것은 아니라는 생각이 여전히 듭니다. Scale.ai의 알렉산드르 왕과 그들의 기업은 미국의 '국가주의'를 너무나도 자연스럽고 빠르게 받아들였습니다. 가장 최근에 설립된 딥시크와 그 설립자 리앙 웬펑을 비롯한 대부분의 중국 AI 기업가들은 국제적이고 글로벌한 인재로 교육받았습니다. 이는 흥미로운 현상입니다.