DeepSeek가 모델링 업계에 큰 활력을 불어넣었습니다.
얼마 전 OpenAI는 심야에 최신 추론 모델인 <. strong>오3-미니 시리즈.
로우, 미디엄, 하이의 세 가지 버전이 있습니다.
이 중 o3-mini와 o3-mini-high는 이미 라이브 상태입니다.

공식 칼리버에 따르면, 저비용을 목표로하는 o3 시리즈 모델은 추론의 경계를 넓히는 것을 목표로 합니다.
ChatGPT Plus, Team, Pro 사용자는 오늘부터 OpenAI o3-mini에 액세스할 수 있으며, 엔터프라이즈 액세스는 일주일 후에 시작됩니다.
무료 사용자도 '검색+이유'를 선택하여 o3-mini를 사용하여 검색을 경험할 수 있습니다.

딥시크에 밀려 OpenAI가 사용자들에게 검색을 무료로 제공한 것은 이번이 처음일지도 모릅니다. OpenAI가 추론 모델을 사용자에게 무료로 제공한 것은 이번이 처음입니다.
이후 이어진 Reddit Q&A에서도 알트먼 CEO는 다음과 같이 드물게 공개적으로 반박했습니다.
그러나 불과 몇 시간 만에 사용자들은 이미 열광적으로 ing......
을 테스트하기 시작했습니다. STEM 추론에 최적화되었지만 여전히 DeepSeek-R1에 비해 비싼
기술 보고서의 내용을 살펴봅시다.

지난해 말, OpenAI는 o3-. 미니 프리뷰를 출시하여 소형 모델 기능의 한계를 다시 한 번 갱신했습니다. (비용과 짧은 지연 시간 면에서 o1-mini와 비슷합니다.)
당시 CEO인 Altman은 올해 1월에 정식 버전이 출시될 것이라고 예고했습니다. 그리고 ddl의 마지막 순간에 드디어 정식 버전의 o3-mini가 출시되었습니다.
전 세대인 o1-mini와 마찬가지로 전반적으로 STEM(과학, 기술, 공학, 수학)에 최적화되어 미니 시리즈의 작지만 아름다운 스타일을 이어갑니다. 강한> 스타일을 이어갑니다.
수학 코딩에서 o3-mini(중형)만이 o1 시리즈만큼의 성능을 발휘할 뿐만 아니라 반응 속도도 더 빠릅니다.
전문가 평가에 따르면 o3-mini는 대부분의 경우 o1-mini보다 더 정확하고 명확한 답을 생성하여 56% 선호도를 얻었으며, 복잡한 실제 문제를 다룰 때 39% 더 적은 오류를 범하는 것으로 나타났습니다. strong>39%.
수학적 능력에서 추론 강도가 낮을 때(낮음) o3-mini는 o1-mini와 비슷한 수준에 도달하고, 추론 강도가 중간일 때는 o1의 풀 버전과 비슷하며, 추론 강도를 최대로 늘리면(높음) 모든 모델의 성능을 뛰어넘는 것으로 나타났습니다. o1-mini는 o1 시리즈 중 가장 강력한 모델입니다.

60여 명의 최고 수학자들이 준비한 FrontierMath 퍼즐 테스트에서 프론티어매쓰 퍼즐 테스트에서 추론력이 높은 o3-mini는 o1 시리즈에 비해 유의미한 향상을 보였습니다.
심지어 파이썬 도구와 함께 사용했을 때 o3-mini(높음)는 첫 시도에서 T3 수준의 문제 28% 이상을 포함해 32% 이상의 문제를 해결한 것으로 나타났습니다.

과학적 역량, 박사 수준의 물리학 및 화학 질문에서 추론 강도가 낮은 O3-미니는 이미 O1-미니 등급에서 멀어졌습니다.

그리고 중요한 코딩 능력에서는 모든 레벨에서 o3-mini가 훨씬 더 우수합니다. 미니는 모든 레벨에서 O1 시리즈보다 훨씬 더 앞서 있습니다.

라이브벤치에서의 성능을 기준으로 합니다. 추론 강도가 높아질수록 o3-mini의 우위가 계속 커지는 것을 볼 수 있습니다.

그리고 중요한 점은 o3-mini는 평균 응답 시간이 7.7초로 o1-mini의 10.16초보다 24% 개선된 반면 대응 속도는 더 빨랐습니다.

마지막으로 보안 평가 측면에서는 o3-mini 는 여러 안전성 평가에서 GPT-4o보다 훨씬 뛰어난 성능을 보였습니다.

가격, 각각 입력/출력 대비 비교 딥시크-R1의 경우 0.14/$0.55, o3-mini는 여전히 비싸다.

네티즌에 따르면, 딥시크-R1은 여전히 가성비의 왕입니다. R1은 현재 더 빠르고, 더 좋고, 더 저렴하다는 점에서 여전히 가성비의 왕입니다.

한편, 평소와 마찬가지로 OpenAI는 발표를 통해 o3-mini를 개발한 팀을 발표했습니다. 보시다시피, 이번 프로젝트는 울트라맨이 직접 이끌고 연구 프로젝트 디렉터인 카푸스 창과 크리스틴 잉이 함께했습니다(렌 홍위와 자오 셩지아 등 우리에게 익숙한 오랜 친구들도 다수 포함되어 있습니다).

네티즌들의 테스트에 열광하고 있습니다
앞서 언급했듯이 사용자들은 이미 테스트를 시작했습니다.
그러나 리뷰에 따르면 사람들은 o3-mini의 성능에 대해 엇갈린 감정을 가지고 있습니다.
예를 들어, Python에서 4차원 몸체 안에 공을 튕기는 작업에서 o3-mini는 최고의 LLM으로 간주되었습니다.


이 효과는 다음과 같습니다:
< img src="https://img.jinse.cn/7346477_image3.png">
그런 다음 일부 사용자가 DeepSeek로 동일한 작업을 시도했고, 결과 측면에서 o3-mini가 약간 우세하다고 생각했습니다.

보다 직접적인 비교를 위해 공이 회전하는 육각형 안에서 튕기도록 합니다. 공이 중력과 마찰을 받아야 하는 바운싱에서는 o3-mini와 DeepSeek R1의 효과 차이가 더욱 분명해집니다.
<
구 안에 100개의 튀는 노란색 공을 만드는 좀 더 복잡한 작업은 이제 o3-mini가 할 수 있습니다.
그리고 두 마리의 뱀이 서로 경쟁하는 게임을 설계하도록 하는 작업도 있습니다.
두 뱀이 서로 경쟁하게 만드는 것:
< :
사용자들은 딥시크 외에도 o1과 o3-mini의 효과를 비교하여 놀랍도록 거대한 부유 도시를 생성하는 등 다양한 실험을 진행했습니다.

또 다른 사용자는 거의 모든 대형 모델을 만들 수 있는 방법을 제안했습니다. 또 다른 사용자는 거의 모든 대형 모델을 틀릴 수 있는 혼란스러운 질문을 던졌지만, o3-mini가 정답을 맞힌 것에 놀라움을 감추지 못했습니다.

하지만 유명한 팟캐스트 블로거인 Lex Fridman은 o3-mini에 대해 이렇게 말했습니다:
OpenAI o3-mini는 좋은 모델이지만 DeepSeek R1의 성능은 비슷하고 가격은 더 저렴하며 그 이유를 밝힙니다. 프로세스를 보여줍니다.
더 나은 모델이 곧 출시될 예정이지만(o3-pro를 기다릴 수 없습니다), '딥시크의 순간'은 현실입니다. 5년 후에도 기술 역사의 전환점으로 기억될 것 같습니다.

한 가지 더
One More Thing
DeepSeek 순간은 실재했습니다.
오3 미니가 출시된 지 몇 시간 후, 울트라맨과 그의 팀은 Reddit Q&A 세션에 참여했습니다.

오픈 소스 DeepSeek가 한동안 AI 커뮤니티를 자극해 왔다는 점을 고려하면 울트라맨의 팀이 참여한 것은 놀라운 일이 아닙니다. 알트먼은 AI 업계에서 보기 드물게 공개적으로 다음과 같이 반성했습니다."
가중화된 AI 모델의 오픈소스화 문제에 대해 (제 개인적인 생각으로는) 우리는 역사의 잘못된 편에 서 있습니다.

오픈AI의 우위를 인정하더라도 예전만큼 크지 않을 것입니다.
DeepSeek는 정말 훌륭하고 더 나은 모델을 계속 개발할 것이지만 선두는 더 작아질 것입니다.

한편, OpenAI의 미래 계획도 공개되었습니다.
예를 들어, 고급 음성 모드에 대한 업데이트가 곧 출시될 예정이며, 아직 구체적인 일정은 정해지지 않았지만 OpenAI는 이를 GPT-5o가 아닌 GPT-5라고 부를 예정입니다.

추론 모델은 또한 더 많은 도구 호출도 지원할 예정입니다. .

마지막으로, o3의 완전한 버전도 언급되었습니다. 꽤 멀어 보입니다 ......
