출처:Anthropic AI
늦은 밤에 클로드 3.5가 대대적으로 업그레이드되었습니다!
이번 주에 드디어 클로드 3.5 하이쿠를 출시하고, 클로드 3.5 소네트의 새로운 업그레이드 버전인 클로드 3.5 소네트도 출시했습니다.
이미지 src="https://img.jinse.cn/7311471_image3.png">
그러나 '오버사이즈 컵' 오푸스는 여전히 빠져 있습니다.
놀라운 점은 진화한 클로드 3.5 소네트가 단숨에 OpenAI o1을 제치고 가장 강력한 추론 모델이 되었다는 점입니다.
특히 업계 최고 수준의 코딩 기능을 비롯해 전반적으로 크게 개선되었습니다.
이미지 src="https://img.jinse.cn/7311472_image3.png">
클라우드 3.5 하이쿠는 이전 세대 하이쿠와 비슷한 비용과 속도로 이전 세대 최강자였던 클로드 3 오푸스와 비슷한 성능을 제공합니다.
더 나아가 이제 Claude는 화면을 보고 커서를 움직이는 것뿐만 아니라 독립적으로 버튼을 누르고 텍스트를 입력하는 등 사람처럼 컴퓨터를 조작할 수 있게 되었습니다!
안트로픽의 개발자 관계 책임자는 '컴퓨터 사용'이 인간과 컴퓨터의 상호작용이라는 완전히 새로운 패러다임의 첫걸음이라고 말합니다. 또한 이는 인공지능 모델이 갖춰야 할 새로운 기본 역량이기도 합니다.
이미지 src="https://img.jinse.cn/7311473_image3.png">
이미지 src="https://img.jinse.cn/7311474_image3.png">
많은 브라우저 기반 인텔리전스 제품들이 스타트업이 만든 많은 브라우저 기반 인텔리전스가 하룻밤 사이에 쓸모없어졌습니다.
네티즌들은 에이전트와 워크플로우가 바뀌고 있다는 사실에 한탄하고 있습니다 ......
스스로 컴퓨터를 사용할 수 있는 인공지능이 온다? up?
공개 베타 버전에서는 컴퓨터를 사용할 수 있는 획기적인 새 기능을 도입합니다. 오늘부터 개발자는 API를 통해 Claude에게 사람처럼 컴퓨터를 사용하도록 지시할 수 있습니다.
클라우드 3.5 소네트는 공개 베타 버전에서 이 기능을 제공하는 첫 번째 모델입니다.
물론 이 기능은 아직 실험 단계에 있으며 사용하기에 다소 투박하고 오류가 발생하기 쉽습니다. 하지만 개발자의 피드백을 받아 빠르게 개선하기 위해 Anthropic은 이 기능을 조기에 출시하기로 결정했습니다.
컴퓨터 작동을 위해 AI를 훈련시키는 이유는 무엇인가요?
Anthropic은 지난 몇 년 동안 강력한 AI 개발이 복잡한 논리적 추론을 수행하고 이미지를 인식하고 이해하는 능력과 같은 많은 이정표에 도달했다고 말합니다.
그리고 다음 돌파구는 AI 운영 컴퓨터가 될 것입니다! 모델이 특별히 맞춤화된 도구를 통해 서로 상호작용할 필요 없이 모든 소프트웨어를 지시에 따라 사용할 수 있다면 이것이 바로 미래임에 틀림없습니다.
기본 컴퓨터 작동
이 데모에서 앤트로픽 연구원이 클로드에게 매우 어려운 과제를 제시합니다.
My. 친구가 샌프란시스코에 오는데 내일 아침 금문교에서 일출을 함께 보고 싶어요. 퍼시픽 하이츠에서 출발할 예정입니다. 멋진 전망 장소를 찾고, 운전 시간과 일출 시간을 확인한 다음, 충분한 시간 내에 도착할 수 있도록 캘린더 일정을 조정하는 데 도움을 줄 수 있나요?
클라우드는 혼자서 Google을 열고 검색을 시작했습니다.
사용자가 살고 있는 곳에서 금문교까지는 얼마나 걸리나요? 클라우드는 스스로 지도를 열어 거리를 찾습니다.
이미지 src="https://img.jinse.cn/7311477_image3.png">
필요한 정보를 학습한 후 캘린더를 열어 소유자에게 일정을 알려줍니다.
웹 사이트 자동 코딩
개발자는 Claude가 노트북을 조작하여 웹 사이트 프로그래밍 작업을 매끄럽게 완료하는 방법을 보여줍니다.
먼저, 클로드는 동생의 Chrome 브라우저에서 Claude.ai로 이동하여 90년대 테마의 개인 홈페이지를 직접 만들도록 했습니다.
클라우드는 스스로 URL을 입력하고 프롬프트에 입력한 후 다른 클로드에게 요청을 보냈습니다.
이미지 src="https://img.jinse.cn/7311478_image3.png">
Claude.ai는 몇 가지 코드를 반환했고 렌더링은 훌륭해 보였지만 동생은 자신의 컴퓨터에서 사이트를 로컬로 변경하고 싶었습니다.
그래서 동생은 클로드에게 파일을 다운로드하고 VS Code에서 열어달라고 요청했고, 클로드는 성공적으로 지시를 완료했습니다.
그런 다음 리틀은 클로드에게 서버를 시작하도록 한 다음 브라우저에서 파일을 실제로 볼 수 있도록 했습니다.
클라우드는 VS Code 터미널을 열고 서버를 시작하려고 시도한 후 오류가 발생했습니다: 컴퓨터에 Python이 설치되어 있지 않습니다.
클라우드는 터미널 출력을 보고 문제를 직접 발견했습니다! Python 3으로 다시 시도한 결과 서버를 가동하고 실행하는 데 성공했습니다.
그러나 터미널 출력에 오류가 있었고 상단에 파일 아이콘이 누락되었습니다. 개발자는 Claude에게 오류를 찾아서 파일에서 수정해 달라고 요청했습니다.
놀랍게도 클로드는 VS 코드에서 오류를 유발한 줄을 찾아내어 전체 줄을 삭제한 다음 파일을 저장하고 사이트를 다시 실행했습니다.
이미지 src="https://img.jinse.cn/7311480_image3.png">
이번에는 사이트가 제대로 작동합니다!
양식에 입력할 데이터 자동으로 찾기
'Ant Equipment Company'의 공급업체 요청 양식을 작성해야 하는데, 입력해야 할 데이터가 컴퓨터 여기저기를 돌아다닌다고 가정해 보겠습니다. 그러면 Claude가 대신 작성해 줄 수 있을까요?
클라우드는 작은 녀석의 화면을 스크린샷으로 찍기 시작했고, 곧 양식에 개미 장비 회사가 없다는 사실을 깨달았습니다.
이미지 src="https://img.jinse.cn/7311481_image3.png">
이 시점에서 즉시 CRM 시스템으로 전환하여 이 회사를 검색합니다. 이 회사를 찾으면 페이지를 아래로 스크롤하여 양식 작성에 필요한 모든 정보를 찾은 다음 양식을 제출합니다.
이것은 또한 우리가 직장에서 해야 하는 많은 지루한 일들을 클로드에게 맡길 수 있다는 것을 의미합니다!
이미지 src="https://img.jinse.cn/7311482_image3.png">
이 기능은 이제 API에서 사용할 수 있습니다.
아사나, 캔바, 코그니션, 도어대시, 레플리트, 더 브라우저 컴퍼니 등 여러 유명 회사에서 이미 수십, 수백 가지의 복잡한 작업을 수행할 수 있는 Claude의 새로운 잠재력을 탐색하고 있습니다.
예를 들어, Replit은 클로드 3.5 소네트의 컴퓨터 사용 및 사용자 인터페이스 탐색 기능을 활용하여 애플리케이션을 구축하는 동안 Replit 에이전트가 실시간으로 평가할 수 있는 기능을 개발하고 있습니다.
인간보다 훨씬 못하지만 미래는 유망해 보입니다
새롭게 업그레이드된 클로드 3.5 소네트의 컴퓨터 사용 기능은 정확히 어떤 것일까요?
OSWorld 테스트에서 스크린샷 기반 작업 부문에서 14.9%를 기록하여 2위를 차지한 인공지능 시스템(7.8%)을 크게 앞질렀습니다.
작업 완료에 더 많은 작업 단계를 허용했을 때 Claude의 점수는 22.0%로 향상되었습니다.
이것은 모델과 환경 간의 다양한 상호작용이 작업 성능을 최적화할 수 있음을 시사합니다.
이 결과는 이전보다 크게 개선된 것이지만, 여전히 인간의 72.36%에 훨씬 못 미치는 수준입니다.
이 결과는 앞으로 클로드 3.5 소네트가 개선될 여지가 많다는 것을 암시하기도 합니다.
이미지 src="https://img.jinse.cn/7311483_image3.png">
사람이 쉽게 할 수 있는 스크롤, 드래그, 확대/축소 등의 일부 동작은 현재 클로드에게 매우 어려운 작업입니다.
업그레이드된 클로드 3.5 소네트, 코딩의 제왕
다양한 업계 벤치마크에서 업그레이드된 클로드 3.5 소네트의 성능은 모든 면에서 향상되었습니다.
특히 스마트 바디 코딩과 툴 사용 작업에서 획기적인 발전을 이루었습니다.
이미지 src="https://img.jinse.cn/7311484_image3.png">
p style="text-align: 왼쪽;">논문은 https://assets.anthropic.com/m/ 에서 확인할 수 있습니다. 1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf
인코딩 성능의 경우 SWE 벤치 검증 테스트에서 33.4%에서 49.0%로 성능이 크게 향상되었습니다.
이는 OpenAI o1-preview와 같은 추론 모델과 코딩 인텔리전스를 위해 설계된 특수 시스템을 포함해 공개적으로 사용 가능한 모든 모델보다 뛰어난 성능입니다.
이미지 src="https://img.jinse.cn/7311485_image3.png">
또한 클로드 3.5 소네트는 지능형 바디 툴의 사용 능력을 평가하는 벤치마크 테스트인 TAU-bench에서도 우수한 성능을 보였습니다. 블록쿼트>
소매업에서는 62.6%에서 69.2%로 점수가 향상되었고, 더 까다로운 항공 분야에서는 36.0%에서 46.0%로 점수가 상승했습니다.
아래 표에서 추론 테스트 벤치마크인 GPQA(다이아몬드)에서 새 버전의 Claude 3.5. Sonnet이 GPT-4o보다 훨씬 뛰어난 성능을 발휘합니다.
p>비주얼 QA, 수학 추론, 문서 비주얼 Q&A, 다이어그램밍 Q&A, 과학 표 벤치마크에서 클로드 3.5 Sonnet 성능이 새로운 업계 벤치마크가 되었습니다.
이미지 src="https://img.jinse.cn/7311488_image3.png">
이 새로운 버전의 Claude 3.5 Sonnet은 이전 모델과 동일한 가격대를 유지하고 동일한 속도로 실행되면서도 성능 면에서 새로운 지평을 열었다는 점에 주목할 필요가 있습니다.
초기 베타 테스터들의 피드백을 통해 업그레이드된 Claude 3.5 Sonnet이 AI 기반 코딩의 '질적' 도약을 이루었음을 확인할 수 있습니다.
GitLab: DevSecOps 작업 테스트에서 Claude 3.5 Sonnet은 지연 시간 증가 없이 추론 능력이 크게 개선(사용 사례 전반에서 최대 10%)된 것으로 나타났습니다. 복잡한 소프트웨어 개발 프로세스를 구동하는 데 이상적
인지: 새로운 버전의 Claude 3.5 Sonnet을 자율 AI 평가에 적용하여 이전 모델에 비해 코딩, 계획 및 문제 해결에서 상당한 개선이 이루어졌습니다
인지: 새로운 버전의 Claude 3.5 Sonnet을 자율 AI 평가에 적용하여 이전 모델에 비해 코딩, 계획 및 문제 해결에서 상당한 개선이 이루어졌습니다
The Browser Company:는 이 모델을 사용하여 네트워크 워크플로우를 자동화하는 데 있어 Claude 3.5 Sonnet이 이전에 테스트했던 모든 모델보다 뛰어난 성능을 보였다는 사실을 발견했습니다
또한 보안 배포에 앞서, Claude 3.5. Sonnet은 미국 AI 보안 연구소(US AISI)와 영국 AISI에서 공동 테스트를 거쳤습니다.
그리고 자체 평가를 거쳐 앤서픽이 '책임 있는 확장 정책'에서 개발한 ASL-2 표준을 새 모델에 그대로 적용했습니다.
언급한 바와 같이, 이제 웹과 엔드-앱에서 업그레이드된 버전의 클로드 3.5 소네트를 사용할 수 있습니다.
이미지 src="https://img.jinse.cn/7311489_image3.png">
API 가격은 입력 토큰 백만 개당 $3부터, 출력 토큰 백만 개당 $15부터 시작합니다. strong>.
스마트 캐싱 기술을 사용하면 최대 90%, 배치 API를 사용하면 50%의 비용을 절감할 수 있습니다.
애플리케이션 시나리오
Claude 3.5 Sonnet은 미묘한 지침과 맥락을 이해하고 자체 오류를 식별 및 수정하며 복잡한 데이터에서 심층 분석과 인사이트를 생성합니다. 최첨단 코딩, 시각적 인식 및 쓰기 기능과 결합된 Claude 3.5 Sonnet은 다양한 시나리오에서 사용할 수 있습니다.
- 컴퓨터의 인간 조작 시뮬레이션
클라우드의 API 통합을 통해 개발자는 화면을 보고, 마우스를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 등 사람처럼 컴퓨터를 사용하도록 클라우드를 지시할 수 있습니다.Claude 3.5 Sonnet은 컴퓨터를 사람처럼 사용할 수 있는 최초의 컴퓨터입니다. 3.5 소네트는 이러한 방식으로 컴퓨터를 안정적으로 사용할 수 있는 최초의 최첨단 AI 모델이며, 아직 공개 테스트 단계에 있지만 시간이 지남에 따라 기능이 계속 향상될 것입니다.
- 자동 코드 생성
Claude 3.5 Sonnet은 초기 설계부터 버그 수정, 시스템 유지보수, 성능 최적화에 이르기까지 전체 소프트웨어 개발 라이프사이클을 지원합니다. 제품에 직접 통합하거나 Claude.ai 플랫폼을 통해 지능형 코딩 도우미로 사용할 수 있습니다.
- 지능형 대화 시스템
강화된 추론 기능과 친근하고 자연스러운 톤을 갖춘 Claude 3.5 Sonnet은 시스템 전반에서 데이터를 연결하고 작업을 수행해야 하는 지능형 대화 시스템 개발에 이상적입니다.
- 지능형 지식 퀴즈
클라우드 3.5 소네트는 대규모 문맥 처리 기능과 매우 낮은 팬텀 비율로 대규모 지식 베이스, 문서 및 코드 베이스 퀴즈 작업을 처리하는 데 이상적입니다.
- 시각 정보 추출
Claude 3.5 Sonnet은 차트, 그래프, 복잡한 회로도와 같은 시각 자료에서 정보를 쉽게 추출할 수 있어 데이터 분석 및 데이터 과학 작업에 이상적인 AI 모델입니다! .
- 프로세스 자동화
Claude 3.5 Sonnet은 반복적인 작업이나 프로세스를 자동화합니다. 복잡한 프로세스와 작업을 처리할 수 있는 업계 최고의 명령 실행 기능을 갖추고 있습니다.
새로운 클로드 3.5 하이쿠, 이전 세대의 빅브라더를 뛰어넘는 지능
이전 세대 벤치마크에서 클로드 3.5 하이쿠는 "가장 작은 컵 ".
안트로픽의 가장 빠른 모델입니다.
클라우드 3 하이쿠와 동일한 운영 비용과 비슷한 처리 속도를 유지할 뿐만 아니라 전반적으로 모든 기술이 향상되었습니다.
클라우드 3.5 하이쿠는 여러 지능형 벤치마크에서 이전 세대의 가장 강력한 모델인 클라우드 3 오푸스를 초과합니다.
마찬가지로 Claude 3.5 Haiku는 코딩 작업에서 특히 뛰어난 성능을 발휘합니다.
예를 들어, SWE 벤치 검증 테스트에서 40.6%의 높은 점수를 획득하여 원래 버전을 포함하여 공개적으로 사용 가능한 최신 모델을 사용하는 많은 AI 지능을 월등히 능가하는 고득점을 기록했습니다. Claude 3.5 Sonnet 및 GPT-4o.
클라우드 3.5 하이쿠는 세 가지 뛰어난 장점을 제공합니다.
1. 짧은 지연 시간 응답
Strong>2. 보다 정확한 명령 실행
3. 보다 정확한 도구 사용
이러한 특징은 특히 사용자 대면 제품 개발, 특수화된 하위 지능 작업, 구매 내역, 가격 정보, 재고 데이터 등 대량의 데이터를 기반으로 개인화된 경험을 생성하는 데 적합합니다. 개인화된 경험.
이달 말, Claude 3.5 하이쿠는 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI(초기에는 텍스트 전용 모델, 추후 이미지 입력 기능 추가 예정)를 포함한 여러 플랫폼에서 사용할 수 있습니다.
클라우드 3.5 하이쿠의 가격은 다음과 같이 시작됩니다. 입력 토큰 백만 개당 $0.25, 출력 토큰 백만 개당 $1.25입니다.
큐 워드 캐싱 기술을 사용하면 최대 90%, 메시지 일괄 처리 API를 사용하면 50%의 비용을 절감할 수 있습니다.
응용 시나리오
빠른 처리 속도, 향상된 명령 실행, 보다 정확한 도구 사용으로 Claude 3.5 Haiku는 사용자 대면 제품, 전문 보조 작업, 방대한 양의 데이터로부터 개인화된 경험을 생성하는 데 이상적입니다.
- 코드 자동 완성
Claude 3.5 Haiku는 빠르고 정확한 코드 제안 및 완성 기능을 제공하여 개발 워크플로우를 가속화합니다. 코딩 프로세스를 간소화하고 생산성을 높이고자 하는 소프트웨어 개발 팀에 이상적입니다.
- 지능형 챗봇
강화된 대화 기능과 빠른 응답 시간을 갖춘 Claude 3.5 Haiku는 대량의 사용자 상호작용을 처리할 수 있는 반응형 챗봇을 구동하는 데 탁월한 성능을 발휘합니다. 특히 확장 가능한 상호작용 기능이 필요한 고객 서비스, 이커머스, 교육 플랫폼에 유용합니다.
- 데이터 추출 및 자동 주석
Claude 3.5 하이쿠는 정보를 효율적으로 처리 및 분류하며 빠른 데이터 추출 및 자동 주석 작업에 탁월합니다. 이 기능은 금융, 의료, 연구 분야에서 대량의 비정형 데이터를 처리해야 하는 조직에 특히 유용합니다.
- 자동화된 실시간 콘텐츠 감사
Claude 3.5 하이쿠는 향상된 추론 및 콘텐츠 이해 기능을 통해 신뢰할 수 있는 즉각적인 콘텐츠 감사를 제공합니다. 이는 안전하고 적절한 콘텐츠를 대규모로 유지해야 하는 소셜 플랫폼, 온라인 커뮤니티 및 미디어 조직에 매우 유용합니다.
클라우드에게 컴퓨터 조작법을 가르치는 방법
인간이 쉽게 할 수 있는 스크롤, 드래그, 확대/축소 등의 동작은 현재로서는 클로드에게 여전히 어렵다고 말합니다.
또한 스팸, 허위 정보, 사기와 같은 위험에 대비해 피해 발생 여부를 감지하는 식별 시스템을 개발하는 등 안전한 배포를 위한 전략을 모색하고 있습니다.
연구 과정
인공지능은 도구 사용과 멀티모달리티에 대한 연구를 통해 이미지를 인식하고 해석할 수 있는 기반을 마련하고 있습니다.
이 토대를 바탕으로 클로드는 화면 콘텐츠에 따라 언제 어떻게 작업을 수행할지 추론해야 했습니다.
이를 위해 연구진은 명령을 완료하기 위해 마우스 포인터를 수직 또는 수평으로 움직여 올바른 지점을 클릭하기 위해 필요한 픽셀 수를 계산해야 하므로 클로드가 픽셀 수를 정확하게 계산하도록 훈련시켰습니다.
이 기간 동안 클로드는 계산기나 텍스트 편집기 같은 간단한 소프트웨어에 대한 훈련에서 다른 애플리케이션으로 학습 성과를 빠르게 이전했습니다(이 기간 동안에는 네트워킹이 허용되지 않았음에 유의하세요).
이 훈련을 통해 사용자 명령을 일련의 논리적 단계로 변환하여 작업을 수행할 수 있었습니다. 심지어 장애물을 만나면 스스로 수정하고 작업을 다시 시도할 수도 있습니다.
퀴즈
인공지능의 개발자 관계 책임자인 알렉스 앨버트(Alex Albert)는 컴퓨터의 사용 기능 개발과 관련하여 흥미로운 이야기를 들려주었습니다.
당시 엔지니어들이 버그 배쉬(취약점 문제 해결 이벤트)를 열어 API의 모든 잠재적 문제를 찾아냈습니다.
몇 명의 엔지니어를 한 방에 몇 시간 동안 가두는 것이었습니다.
당시에는 마침 모두가 배가 고팠던 때였습니다. 엔지니어 중 한 명이 "클라우드로 하여금 실제 운동을 하도록 하고 DoorDash를 자율적으로 열어 음식을 주문하게 하면 어떨까요?"라는 기발한 아이디어를 냈습니다.
약 1분 후, 뜻밖에도 클로드는 엔지니어들을 위해 피자를 주문했습니다.
미래를 바라보며
인공지능의 컴퓨터 작동 능력은 인공지능 개발에 대한 완전히 새로운 접근 방식을 나타냅니다.
지금까지 LLM 개발자들은 모델에 도구를 적용하기 위해 열심히 노력해 왔으며, AI가 특별히 설계된 도구를 사용하여 다양한 작업을 수행하는 특수한 환경을 만들어 왔습니다.
이제 앤트로픽은 '정반대의 방식'으로 모델이 도구에 적응하도록 하는 방식을 택하고 있습니다. 즉, 클로드는 인간처럼 우리가 매일 사용하는 컴퓨터 환경에 적응하고 기존 소프트웨어를 직접 사용할 수 있습니다.
클라우드는 최고의 성능을 자랑하지만 여전히 상대적으로 느리고 오류가 발생하기 쉽습니다. 끌기, 놓기, 확대/축소 등 우리가 컴퓨터에서 매일 하는 많은 작업은 아직 클로드에서는 불가능합니다.
또한 현재 클로드는 연속적인 동영상 스트림을 보는 것이 아니라 연속적인 스크린샷을 찍어 이어 붙이는 방식으로 '그림책'을 빠르게 넘기는 것과 비슷한 방식으로 화면을 봅니다. 따라서 짧은 움직임이나 알림을 놓칠 수 있습니다.
이 데모를 녹화하는 동안 흥미로운 점이 있었습니다.
예를 들어, 한 데모에서는 클로드가 실수로 길게 실행 중인 화면 녹화를 중지하기 위해 클릭하는 바람에 모든 영상이 사라졌습니다.
또 다른 코딩 데모에서 클로드는 갑자기 '정신을 잃고' 옐로스톤 국립공원의 사진을 매우 흥미롭게 탐색하기 시작했습니다.
이미지 src="https://img.jinse.cn/7311494_image3.png">
오늘 클로드의 활약은 앞으로 AI의 컴퓨터 작동 능력이 빠른 속도로 발전하여 소프트웨어 개발을 처음 접하는 사람도 쉽게 사용할 수 있는 날이 올 것이라는 점에서 많은 것을 기대할 수 있게 해줍니다.