저자: 하트 오브 더 머신
충격적입니다!
여러 기술 기업들이 요약된 텍스트, P차트 등의 기능을 휴대폰에 담아내는 대형 모델 멀티모달 기능을 따라잡고 있는 가운데, 이보다 훨씬 앞서 있는 OpenAI가 직접 나서서 자사 CEO인 울트라맨조차도 감탄하는, 영화에서나 볼 수 있는 제품을 내놓았습니다.
이미지 src="https://img.jinse.cn/7224668_image3.png">
5월 14일 새벽, OpenAI는 첫 번째 '봄 신제품 컨퍼런스'에서 자사의 플래그십 제너레이터 모델인 GPT-4o의 차세대 데스크톱 앱을 선보이며 일련의 새로운 기능을 시연했습니다. 이 기술은 제품 형태를 뒤집어 놓았고, OpenAI는 이번 행보를 통해 전 세계 기술 기업들에게 교훈을 주었습니다.
오늘 발표자는 OpenAI의 최고 기술 책임자인 미라 무라티입니다. 오늘 발표할 내용은 크게 세 가지입니다.
첫 번째는 더 많은 사람들이 OpenAI를 사용할 수 있도록 먼저 무료화할 예정이라는 것입니다.
두 번째로, OpenAI는 보다 쉽고 자연스럽게 사용할 수 있는 데스크톱 버전의 프로그램과 업데이트된 UI를 출시할 예정입니다.
셋째, GPT-4에 이어 GPT-4o라는 새로운 버전의 빅모델이 있으며, GPT-4o의 특별한 점은 무료 사용자를 포함한 모든 사용자에게 매우 자연스러운 상호작용으로 GPT-4 수준의 지능을 제공한다는 것입니다.
이번 ChatGPT 업데이트를 통해 빅 모델은 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받아 실시간으로 텍스트, 오디오, 이미지의 모든 조합을 생성할 수 있으며, 이것이 바로 인터랙션의 미래입니다.
최근 등록 없이 사용할 수 있는 ChatGPT와 오늘 데스크톱 앱을 추가한 OpenAI의 목표는 언제 어디서나 부담 없이 이용할 수 있도록 하고 ChatGPT를 워크플로에 통합하는 것입니다. 이 AI는 이제 생산성입니다.
GPT-4o는 텍스트, 음성, 이미지의 3중 모드 이해, 매우 빠르고 감성적인 반응, 그리고 인간적인 터치를 갖춘 인간과 컴퓨터의 미래 상호작용 패러다임을 위한 새로운 큰 모델입니다.
현장에서 OpenAI 엔지니어들은 아이폰을 꺼내 새 모델의 몇 가지 주요 기능을 시연했습니다. 가장 중요한 것은 실시간 음성 대화였는데, 마크 첸은 "첫 라이브 출시에 와서 조금 긴장된다"고 말했습니다. ChatGPT는 "심호흡을 해보시죠.
알겠습니다, 심호흡할게요.
이미지 src="https://img.jinse.cn/7224671_image3.png">
ChatGPT는 즉시 "그건 안 돼요, 숨을 너무 많이 쉬고 있어요.
Siri와 같은 음성 비서를 사용해 본 적이 있다면 눈에 띄는 차이점이 있습니다. 첫째, 언제든지 AI를 중단할 수 있으므로 대화가 끝날 때까지 기다렸다가 다음 단계로 넘어갈 필요가 없습니다. 둘째, 기다릴 필요 없이 모델이 매우 빠르게 응답하므로 사람의 응답보다 빠릅니다. 셋째, 모델은 인간의 감정을 완전히 이해할 수 있으며 다양한 감정을 스스로 표현할 수 있습니다.
그런 다음에는 볼 수 있는 능력이 생겼습니다. 또 다른 엔지니어는 이제 종이에 방정식을 써서 직접 답을 주는 대신 ChatGPT가 단계별로 무엇을 해야 하는지 설명해줍니다. 사람들에게 작업 방법을 가르치는 데 많은 잠재력이 있는 것 같습니다.
ChatGPT는 수학 때문에 고민할 때마다 수학 때문에 고민할 때마다 제가 곁에 있습니다.
다음은 GPT-4o의 코드 기능을 사용해 보세요. 여기 몇 가지 코드가 있는데, 컴퓨터에서 데스크톱 버전의 ChatGPT를 열고 음성으로 상호작용하여 코드의 용도와 함수의 기능을 설명해 달라고 요청하면 ChatGPT가 대답합니다.
코드를 출력하면 온도 그래프가 생성되고, 이 그래프에 대한 모든 질문에 ChatGPT가 한 문장으로 응답합니다.
이미지 src="https://img.jinse.cn/7224673_image3.png">
가장 더운 달은 몇 월인지, Y축이 섭씨인지 화씨인지에 대한 질문에 모두 대답합니다.
OpenAI는 또한 X/Twitter에서 사람들이 실시간으로 묻는 질문 중 일부에 대해서도 응답합니다. 예를 들어 실시간 음성 번역은 휴대전화를 번역기로 사용하여 스페인어와 영어를 오가며 번역할 수 있습니다.
또 다른 질문은 ChatGPT가 사용자의 표현을 인식할 수 있나요?
GPT-4o는 이미 실시간 영상 이해가 가능한 것으로 보입니다.
다음으로 오늘 OpenAI가 공개한 핵폭탄에 대해 자세히 살펴보겠습니다.
옴니모델 GPT-4o
첫 번째는 GPT-4o로, 여기서 o는 옴니모델(Omnimodel)을 의미합니다.
OpenAI는 처음으로 모든 모달리티를 단일 모델에 통합하여 대형 모델의 활용도를 획기적으로 높였습니다.
오픈AI의 CTO 무라티 무라티는 GPT-4o가 'GPT-4 수준'의 인텔리전스를 제공하지만 텍스트, 시각, 오디오에서 GPT-4를 개선했으며 앞으로 몇 주 안에 회사 제품 전체에 '반복적으로' 출시될 예정이라고 말했습니다.
"GPT-4o의 근거는 음성, 텍스트, 시각에 걸쳐 있습니다."라고 Muri Murati는 말합니다. "이러한 모델이 점점 더 복잡해지고 있다는 것을 알고 있지만, 사용자 인터페이스에 전혀 신경 쓰지 않고 GPT와의 협업에만 집중할 수 있도록 상호 작용 경험이 더욱 자연스럽고 단순해지기를 바랍니다."라고 덧붙입니다.
GPT-4o는 영어 텍스트 및 코드에 대해서는 GPT-4 Turbo의 성능과 비슷하지만 영어가 아닌 텍스트에 대해서는 훨씬 더 나은 성능을 제공하며, 50% 더 저렴한 비용으로 더 빠른 API를 제공합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 음성 이해 능력이 뛰어납니다.
232밀리초의 빠른 속도로 오디오 입력에 응답할 수 있으며, 평균 응답 시간은 320밀리초로 인간과 비슷합니다. GPT-4o가 출시되기 전에 ChatGPT의 음성 대화 기능을 경험한 사용자들은 평균 지연 시간을 2.8초(GPT-3.5)와 5.4초(GPT-4)로 인식했습니다.
이 음성 응답 모델은 세 가지 개별 모델로 구성된 파이프라인으로, 단순 모델이 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4가 텍스트를 수신하여 출력하며, 세 번째 단순 모델이 해당 텍스트를 다시 오디오로 변환하는 방식으로 이루어집니다. 그러나 OpenAI는 이러한 접근 방식에서는 모델이 음조, 여러 화자 또는 배경 소음을 직접 관찰할 수 없고 웃음, 노래 또는 감정 표현을 출력할 수 없는 등 많은 정보를 잃는다는 것을 발견했습니다.
그러나 GPT-4o에서 OpenAI는 텍스트, 시각, 오디오에 걸쳐 새로운 모델을 엔드투엔드 방식으로 학습시켰으며, 이는 모든 입력과 출력이 동일한 신경망에 의해 처리된다는 것을 의미합니다.
"기술적 관점에서 볼 때 OpenAI는 오디오를 일류 양식으로 직접 매핑하고 비디오를 실시간으로 트랜스포머로 전송하는 방법을 찾았습니다. 이를 위해서는 토큰화 및 아키텍처에 대한 새로운 연구가 필요하지만 전반적으로는 (대부분의 경우와 마찬가지로) 데이터 및 시스템 최적화의 문제입니다." NVIDIA의 과학자 짐 팬은 이렇게 말했습니다.
이미지 src="https://img.jinse.cn/7224674_image3.png">
GPT-4o는 텍스트, 오디오, 비디오 전반에 걸쳐 실시간 추론을 가능하게 하며, 이는 인간과 컴퓨터, 나아가 인간과 기계의 상호작용을 더욱 자연스럽게 만드는 데 중요한 단계입니다.
오픈AI의 사장 그렉 브록맨은 두 명의 GPT-4o가 실시간으로 서로 대화하는 것은 물론, 다소 '감성적'이긴 하지만 방의 장식, 등장인물이 입고 있는 옷, 에피소드 중 무슨 일이 벌어지는지 등을 다룬 노래를 즉흥적으로 만들게 하는 등 모든 노력을 기울였습니다.
또한 GPT-4o는 기존 모델보다 이미지를 훨씬 더 잘 이해하고 생성하기 때문에 이전에는 불가능했던 많은 작업을 '쉽게' 할 수 있습니다.
예를 들어, 코스터에 OpenAI의 로고를 인쇄하는 데 도움을 요청할 수 있습니다.
이 모든 기술 개발 끝에 OpenAI는 폰트 생성 문제를 해결했어야 합니다.
동시에 GPT-4o는 6개의 생성된 이미지에서 3D 재구성이 가능한 3D 시각 콘텐츠를 생성하는 기능도 갖추고 있습니다.
다음은 GPT-4o가 손글씨 스타일로 타이핑할 수 있는 시입니다:
더 복잡한 조판 스타일도 처리할 수 있습니다 :
p>
GPT-4o를 사용하면 다음과 같이 할 수 있습니다. 몇 단락의 텍스트를 입력하기만 하면 연속적인 만화 분할 세트를 얻을 수 있습니다.
그리고 여기 많은 디자이너를 놀라게 할 만한 것이 있습니다.
이것은 두 장의 라이프스타일 사진에서 발전한 양식화된 포스터입니다:
'텍스트에서 아트워크로' 같은 틈새 기능도 있습니다:
GPT-4o 성능 평가 결과
오픈AI 기술팀원들은 미스테리한 모델인 'im-also-a-good-gpt2-. 챗봇"이 GPT-4o의 버전이라고 밝혔습니다.
이미지 src="https://img.jinse.cn/7224688_image3.png">
더 어려운 프롬프트 세트, 특히 인코딩: GPT-4o의 성능 향상은 OpenAI의 이전 최고 모델인 성능 개선이 특히 두드러집니다.
특히, 여러 벤치마크에서 GPT-4o는 텍스트, 추론, 코딩 인텔리전스에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오, 시각 기능에서 새로운 최고 기록을 달성했습니다. 다국어, 오디오 및 시각 기능에서 새로운 최고치를 달성했습니다.
추론 부스트: GPT-4o 5지선다형 MMLU(상식 문제)에서 87.2%라는 새로운 최고 점수를 기록했습니다. (참고: Llama3 400b는 아직 훈련 중임)
오디오 ASR 성능: GPT-4o는 Whisper-v3에 비해 모든 언어에서 음성 인식 성능이 크게 향상되었으며 특히 리소스가 부족한 언어의 경우 더욱 그렇습니다.
GPT-v3는 음성 번역에서 상당한 성과를 거둔 최초의 GPT-4o입니다. 4o는 음성 번역에서 새로운 SOTA 수준을 달성하고 MLS 벤치마크에서 Whisper-v3보다 뛰어난 성능을 발휘합니다.
M3Exam 벤치마크는 여러 국가의 표준화된 시험에 대한 객관식 문제와 그래프, 차트 및 도표로 구성된 다국어 및 시각적 평가 벤치마크로, 다국어 및 시각적 평가 벤치마크 모두입니다. GPT-4o는 모든 언어 벤치마크에서 GPT-4보다 우수한 성적을 기록했습니다.
향후 이 모델의 기능이 개선되면 더욱 자연스러운 실시간 음성 대화와 실시간 비디오를 통해 ChatGPT와 대화할 수 있는 기능이 추가될 예정입니다. 예를 들어 사용자가 ChatGPT에게 실시간 스포츠 경기를 보여주며 규칙을 설명해달라고 요청할 수 있습니다.
ChatGPT 사용자는 고급 기능을 무료로 이용할 수 있습니다
매주 1억 명 이상이 ChatGPT를 사용하는 가운데, OpenAI는 오늘부터 ChatGPT에서 GPT-4o의 텍스트 및 이미지 기능이 무료로 제공되며, 최대 5배의 메시지 수 한도를 5배까지 늘렸습니다.
지금 ChatGPT를 열면 GPT-4o를 사용할 수 있음을 알 수 있습니다.
이미지 src="https://img.jinse.cn/7224695_image3.png">
GPT-4o를 사용할 때 ChatGPT 무료 사용자는 이제 다음과 같은 기능에 액세스할 수 있습니다: GPT-4 수준의 지능을 경험하고, 사용자는 모델과 네트워크에서 응답을 가져올 수 있습니다.
또한 무료 사용자에게는 다음과 같은 옵션이 있습니다.
데이터 분석 및 차트 생성:
이미지 src="https://img.jinse.cn/7224696_image3.png">
촬영한 사진에 대화하기. 촬영한 사진과 대화하기:
요약, 작성 또는 분석에 도움을 받기 위해 파일 업로드하기:
GPT 및 GPT App Store 검색 및 사용:
메모리 기능을 사용하여 더 유용한 환경을 만듭니다.
그러나 사용량과 수요에 따라 무료 사용자가 GPT-4o로 보낼 수 있는 메시지 수에는 제한이 있습니다. 한도에 도달하면 ChatGPT는 사용자가 대화를 계속할 수 있도록 자동으로 GPT-3.5로 전환됩니다.
또한 OpenAI는 향후 몇 주 내에 ChatGPT Plus에 새로운 버전의 음성 모드인 GPT-4o 알파를 출시할 예정이며, API를 통해 신뢰할 수 있는 소수의 파트너 그룹에 GPT-4o용 새로운 오디오 및 비디오 기능을 추가로 제공할 예정입니다.
물론 많은 모델 테스트와 반복을 통해 GPT-4o는 모든 모드에서 몇 가지 제한 사항이 있습니다. 이러한 불완전한 부분에 대해 OpenAI는 GPT-4o를 개선하기 위해 노력하고 있다고 밝혔습니다.
예상할 수 있듯이, GPT-4o 오디오 모드의 개방은 여러 가지 새로운 위험을 수반합니다. 보안 문제와 관련하여 GPT-4o는 학습 데이터를 필터링하고 사후 학습을 통해 모델의 동작을 개선하는 등의 기술을 통해 크로스 모달 설계에 보안을 내장하고 있으며, openAI는 음성 출력에 대한 보호를 제공하기 위해 새로운 보안 시스템도 만들었습니다.
새로운 데스크톱 앱으로 사용자 워크플로우 간소화
무료 및 유료 사용자 모두를 위해 OpenAI는 macOS용 새로운 ChatGPT 데스크톱 앱도 출시했습니다. 사용자는 간단한 키보드 단축키(Option + Space)를 사용하여 앱에서 바로 ChatGPT에 질문하고 스크린샷을 찍고 토론할 수 있습니다.
이미지 src="https://img.jinse.cn/7224700_image3.png">
사용자는 이제 컴퓨터에서 직접 ChatGPT와 음성 대화에 참여할 수 있으며, 향후 출시될 GPT-4o의 오디오 및 비디오 기능을 사용하여 오른쪽 하단의 헤드셋 아이콘을 클릭하여 음성 대화를 시작할 수 있습니다.
오늘부터 OpenAI는 macOS 앱을 플러스 사용자들에게 제공하고 있으며, 몇 주 내에 더 많은 사용자들이 이용할 수 있도록 할 예정입니다. 또한 OpenAI는 올해 말 Windows 버전도 출시할 예정입니다.
아웃먼: 당신은 오픈 소스, 우리는 무료
오픈AI의 CEO인 샘 아웃먼은 출시 후 블로그 포스팅을 통해 GPT-4o를 개발하기까지의 여정에 대해 다음과 같이 말했습니다."
오늘 출시하면서 강조하고 싶은 두 가지가 있습니다.
첫째, 저희 미션의 핵심은 사람들이 강력한 AI 도구를 무료로 또는 할인된 가격으로 사용할 수 있도록 하는 것입니다. 세계 최고의 모델을 광고나 그 어떤 것도 없이 ChatGPT에서 무료로 제공하게 되어 매우 자랑스럽게 생각합니다.
오픈AI를 시작했을 때 저희의 원래 비전은 AI를 만들어 전 세계에 모든 종류의 혜택을 제공하겠다는 것이었습니다. 지금은 상황이 바뀌어 우리가 AI를 만들고 다른 사람들이 이를 활용해 우리 모두가 혜택을 누릴 수 있는 모든 종류의 놀라운 것들을 만들어내는 것처럼 보입니다.
물론 저희는 기업이기 때문에 유료로 많은 것을 발명할 것이고, 이를 통해 수십억 명의 사람들에게 무료로 훌륭한 AI 서비스를 제공할 수 있을 것입니다(바라건대).
둘째, 새로운 음성 및 비디오 모드는 제가 사용해 본 것 중 최고의 컴퓨팅 상호 작용 인터페이스입니다. 마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금 놀랍습니다. 인간 수준의 응답 시간과 표현력에 도달한 것은 큰 도약이었습니다.
원래의 ChatGPT는 언어 인터페이스의 가능성을 암시했지만, 이 새로운 것(GPT-4o 버전)은 빠르고, 똑똑하고, 재미있고, 자연스럽고, 도움이 되는 등 근본적으로 다른 느낌을 줍니다.
컴퓨터와 상호 작용하는 것이 저에게 자연스럽게 다가온 적은 없었습니다. 그리고 (선택적으로) 개인화, 개인 정보 액세스, AI가 사람을 대신해 작업을 수행하는 기능 등이 추가되면 컴퓨터로 그 어느 때보다 더 많은 일을 할 수 있는 흥미로운 미래가 펼쳐질 것입니다.
마지막으로, 이를 실현하기 위해 열심히 노력해준 팀원들에게 큰 감사를 표합니다!
이미지 src="https://img.jinse.cn/7224702_image3.png">
지난주 알트먼은 인터뷰에서 보편적 기본소득은 달성하기 어렵지만, 우리는 이를 달성할 수 있다고 말했습니다. 보편적 기본소득"이라고 말했습니다. 미래에는 모든 사람이 GPT 컴퓨팅 파워에 무료로 액세스하여 사용, 재판매 또는 기부할 수 있게 될 것입니다.
"AI가 더욱 발전하고 우리 삶의 모든 측면에 내장됨에 따라 GPT-7과 같은 대규모 언어 모델링 유닛을 보유하는 것이 돈보다 더 가치 있는 생산성의 일부를 소유하는 것이 될 수 있다는 생각입니다."라고 알트만은 설명합니다.
GPT-4o의 출시는 이러한 방향으로 나아가는 OpenAI의 노력의 시작일 수 있습니다.
예, 이제 시작일 뿐입니다.
마지막으로, 오늘 OpenAI 블로그 게시물에 올라온 "5월 13일 발표를 추측합니다." 동영상은 내일 있을 I/O 컨퍼런스의 프리뷰 동영상과 거의 똑같다는 점에서 구글에게 한 방 먹은 셈이죠. 구글이 오늘 OpenAI 발표에 어떤 부담을 느끼고 있는지 궁금합니다.