출처: 심장의 기계
기계 심장 사설
이렇게 만든 게 아니라 정말 일상에서 쓸 수 있는 범용 인공지능, 인공지능이 이제 컨퍼런스 개막을 부끄러워할 정도입니다.
5월 15일 새벽, 구글의 연례 개발자 컨퍼런스인 구글 I/O가 공식 개막했습니다. 110분 동안 진행된 메인 기조연설에서 인공지능이 여러 번 언급되었습니다. 구글은 계산을 해봤습니다.
p>이미지 src="https://img.jinse.cn/7225414_image3.png">
예, 매 순간이 AI에 관한 것이었습니다.
최근 제너레이티브 AI 경쟁이 최고조에 달한 가운데, 이번 I/O 컨퍼런스는 자연스럽게 AI를 중심으로 진행되었습니다.
"1년 전 이 무대에서 우리는 네이티브 멀티모달 매크로 모델인 Gemini에 대한 계획을 처음 공유했습니다. 이는 차세대 I/O의 시작이었습니다."라고 Google CEO 순다르 피차이가 말했습니다. "이제 모든 사람이 Gemini의 기술의 혜택을 누릴 수 있기를 바랍니다. 이러한 획기적인 기능은 검색, 이미지, 생산성 도구, Android 등 모든 것에 적용될 것입니다."
24시간 전, OpenAI는 실시간 음성, 동영상, 텍스트 상호 작용으로 전 세계를 뒤흔든 GPT-4o의 출시를 의도적으로 선점했습니다. 오늘 구글은 프로젝트 아스트라와 베오를 선보이며 현재 GPT-4o와 소라로 선두를 달리고 있는 OpenAI를 직접 벤치마킹했습니다.
다음은 프로젝트 아스트라 프로토타입의 실시간 장면입니다.
우리는 가장 현실적인 방식으로 펼쳐지는 비즈니스 전쟁의 최정점을 목격하고 있습니다.
Google 생태계를 혁신하는 제미니의 최신 버전
Google은 I/O에서 제미니 기반 검색의 최신 버전을 선보였습니다.
25년 전, Google은 검색 엔진으로 정보화 시대의 첫 번째 물결을 이끌었습니다. 이제 제너레이티브 AI 기술이 발전함에 따라 검색 엔진은 사용자의 질문에 더 나은 답변을 제공하고 문맥 콘텐츠, 위치 인식, 실시간 정보 기능을 더 잘 활용할 수 있게 되었습니다.
최신 버전의 맞춤형 Gemini 빅 모델을 기반으로 검색 엔진에 생각나는 모든 것을 물어볼 수 있으며, 조사부터 계획, 상상까지 필요한 모든 작업을 Google이 알아서 처리합니다.
![](https://img.jinse.cn/7225415_image3.png)
혹시 빠른 답을 원하지만 모든 정보를 수집할 시간이 없을 때가 있습니다. 이럴 때는 AI 개요를 통해 검색 엔진이 대신 작업을 수행합니다. AI 개요를 사용하면 AI가 자동으로 수많은 웹사이트를 방문하여 복잡한 질문에 대한 답변을 제공할 수 있습니다.
맞춤형 Gemini의 다단계 추론을 통해 AI Overview는 점점 더 복잡해지는 문제를 해결하는 데 도움이 됩니다. 이제 문제를 여러 검색으로 세분화하는 대신 가장 복잡한 질문과 함께 떠오르는 모든 뉘앙스 및 주의 사항을 한 번에 물어볼 수 있습니다.
검색 엔진은 복잡한 질문에 대한 올바른 답변이나 정보를 찾는 것 외에도 사용자와 협력하여 단계별로 계획을 수립할 수 있습니다.
I/O에서 Google은 빅 모델의 멀티모달 및 긴 텍스트 기능을 강조했습니다. 기술의 발전으로 Google 작업 공간과 같은 생산성 도구가 더욱 스마트해졌습니다.
예를 들어, 이제 학교에서 받은 모든 최근 이메일을 요약해 달라고 Gemini에 요청할 수 있습니다. 그러면 백그라운드에서 관련 이메일을 식별하고 PDF와 같은 첨부 파일도 분석합니다. 그런 다음 핵심 사항과 조치 항목에 대한 요약을 얻을 수 있습니다.
이미지 src="https://img.jinse.cn/7225416_image3.png">
여행 중이어서 프로젝트 회의에 참석할 수 없는데 녹음이 한 시간 길이인 경우. Google Meet에서 진행되는 회의인 경우 Gemini에게 하이라이트를 요청할 수 있습니다. 자원 봉사자를 모집하는 그룹이 있는데 그날은 시간 여유가 있다면 Gemini가 지원 이메일 작성을 도와줄 수 있습니다.
한 걸음 더 나아가 Google은 추론, 계획, 기억 능력을 갖춘 지능형 시스템인 빅모델 에이전트에서 더 많은 기회가 있을 것으로 보고 있습니다. 에이전트를 활용하는 애플리케이션은 여러 단계를 앞서 '사고'하고 소프트웨어와 시스템 전반에서 작동하여 사용자가 작업을 더 쉽게 완료할 수 있도록 도와줍니다. 이러한 사고 방식은 이미 검색 엔진과 같은 제품에서 사람들이 AI 기능을 직접 확인할 수 있습니다.
Google은 적어도 패밀리 버킷 앱에 있어서는 OpenAI보다 앞서 있습니다.
제미니 패밀리 업데이트
프로젝트 아스트라 온라인
구글은 생태학적으로 고유한 우위를 가지고 있지만 빅 모델 기반이 중요하며 이를 위해 구글은 자체 팀과 DeepMind를 통합했습니다. 오늘 하사비스는 I/O 컨퍼런스에서 처음으로 무대에 올라 미스터리한 새 모델을 직접 소개하기도 했습니다.
이미지 src="https://img.jinse.cn/7225417_image3.png">
지난해 12월, 구글은 최초의 네이티브 멀티모달 모델인 Gemini 1.0을 울트라, 프로, 나노의 세 가지 크기로 출시했고 몇 달 후 성능을 개선한 새로운 버전인 1.5 프로를 출시했습니다. 1.5 Pro는 향상된 성능과 100만 토큰을 돌파한 컨텍스트 창이 특징입니다.
이제 Google은 속도와 효율성을 추구하는 Google의 경량 모델인 새로운 Gemini 1.5 Flash를 포함하여 Gemini 모델군에 대한 일련의 업데이트를 발표하고, Google의 미래 비전인 Project Astra를 발표했습니다. 인공 지능 비서의 미래를 위한 비전).
1.5 Pro와 1.5 Flash는 현재 Google AI Studio와 Vertex AI에서 100만 토큰 컨텍스트 창을 통해 공개 미리 보기로 사용할 수 있습니다. 이제 1.5 Pro는 API를 사용하는 개발자와 Google Cloud 고객을 위한 대기자 명단을 통해 2백만 토큰 컨텍스트 창에서도 사용할 수 있습니다.
이미지 src="https://img.jinse.cn/7225418_image3.png">
또한 제미니 나노는 텍스트만 입력할 수 있던 것을 이미지 입력도 가능하도록 확장하고 있습니다. 올해 말, 구글은 픽셀을 시작으로 멀티모달 제미니 나노를 출시할 예정입니다. 이를 통해 휴대폰 사용자는 텍스트 입력뿐만 아니라 시각, 소리, 음성 등 더 많은 맥락 정보를 이해할 수 있게 될 것입니다.
제미니 제품군이 새로운 멤버를 맞이합니다: Gemini 1.5 플래시
새로운 1.5 플래시는 속도와 효율성에 최적화되어 있습니다.
![](https://img.jinse.cn/7225419_image3.png)
1.5 플래시는 Gemini 모델 제품군의 최신 제품이자 API에서 가장 빠른 Gemini 모델입니다. 보다 비용 효율적인 서비스와 획기적으로 긴 컨텍스트 윈도우(100만 토큰)를 통해 대규모, 대용량, 고빈도 작업에 최적화되어 있습니다.
![](https://img.jinse.cn/7225420_image3.png)
Gemini 1.5 Flash는 강력한 멀티모달 추론과 획기적인 긴 컨텍스트 창을 제공합니다.
1.5 Flash는 요약, 채팅 애플리케이션, 이미지 및 비디오 캡션, 긴 문서와 표에서 데이터 추출 등에 탁월한 성능을 발휘합니다. 이는 1.5 Pro가 가장 기본적인 지식과 기술을 큰 모델에서 더 작고 효율적인 모델로 마이그레이션하는 증류라는 프로세스를 통해 학습하기 때문입니다.
![](https://img.jinse.cn/7225421_image3.png)
Gemini 1.5 플래시 성능. 출처 https://deepmind.google/technologies/gemini/#introduction
개선된 Gemini 1.5 Pro컨텍스트 창이 2백만 토큰으로 확장
Google은 현재 150만 명 이상의 개발자가 Gemini 모델을 사용하고 있으며 20억 명 이상의 제품 사용자가 Gemini를 사용하고 있다고 언급합니다.
![](https://img. Jinse.cn/7225422_image3.png)
지난 몇 달 동안 Gemini 1.5 Pro 컨텍스트 창을 200만 토큰으로 확장한 것 외에도 Google은 데이터 및 알고리즘 개선을 통해 코드 생성, 논리적 추론 및 계획, 다방향 대화, 오디오 및 이미지 이해 기능을 강화했습니다.
1.5 Pro는 이제 역할, 서식 및 스타일과 관련된 제품 수준의 동작을 지정하는 명령을 포함하여 점점 더 복잡하고 미묘한 명령을 수행할 수 있습니다. 또한 Google은 사용자가 시스템 명령을 설정하여 모델 동작을 지시할 수 있는 기능을 제공합니다.
이제 Google은 Gemini API와 Google AI Studio에 오디오 이해 기능을 추가하여 1.5 Pro에서 Google AI Studio에 업로드된 동영상 이미지와 오디오를 추론할 수 있게 되었습니다. 또한 Google은 1.5 Pro를 Gemini Advanced 및 Workspace 앱을 비롯한 Google 제품에 통합했습니다.
Gemini 1.5 Pro의 가격은 100만 토큰당 3.50달러입니다.
사실 제미니에서 가장 흥미로운 변화 중 하나는 Google 검색입니다.
지난 1년간 Google 검색은 검색 생성 경험의 일부로서 수십억 개의 쿼리에 응답했습니다. 이제 사람들은 새로운 유형의 질문, 더 길고 복잡한 쿼리, 심지어 사진으로 검색하는 등 완전히 새로운 방식으로 검색하여 웹이 제공하는 최고의 정보를 얻을 수 있습니다.
이미지 src="https://img.jinse.cn/7225424_image3.png">
Google은 곧 '사진에 질문' 기능을 출시할 예정입니다. 약 9년 전에 출시된 Google 포토를 예로 들어보겠습니다. 오늘날 사용자들은 매일 60억 개 이상의 사진과 동영상을 업로드합니다. 사람들은 사진을 사용하여 자신의 삶을 검색하는 것을 좋아하며, Gemini를 사용하면 그 어느 때보다 쉽게 검색할 수 있습니다.
주차장에서 차량 요금을 지불하려고 하는데 차량 번호판이 기억나지 않는다고 가정해 봅시다. 이전에는 사진에서 키워드를 검색한 다음 수년간의 사진을 스크롤해 번호판을 찾아야 했습니다. 이제 사진을 요청하기만 하면 됩니다.
이미지 src="https://img.jinse.cn/7225425_image3.png">
또 다른 예는 딸 루시아의 어린 시절을 떠올리는 경우입니다. 이제 사진에 "루시아는 언제 수영을 배웠나요?"라고 물어볼 수 있습니다. 루시아의 수영 실력이 어떤지 알려주세요'라고 좀 더 복잡한 질문을 할 수도 있습니다.
제미니는 단순한 검색을 넘어 수영장, 바다 등 다양한 상황을 인식하고 사용자가 볼 수 있도록 사진에 이 모든 것을 한데 모아 보여줍니다. Google은 올 여름에 '사진에 질문' 기능을 출시할 예정이며, 더 많은 기능이 추가될 예정입니다.
![](https://img.jinse.cn/7225426_image3.png)
![](https://img.jinse.cn/7225427_image3.png)
새로운 오픈 소스 빅 모델 Gemma 2
오늘 Google은 오픈 소스 빅 모델인 Gemma에 대한 일련의 업데이트도 발표했습니다.
이 릴리스에 따르면 Gemma 2는 획기적인 성능과 효율성을 위해 설계된 새로운 아키텍처를 특징으로 하며, 새로운 오픈 소스 모델은 27B 매개 변수를 가지고 있습니다.
![](https://img.jinse.cn/7225428_image3.png)
또한 새로운 Gemma 2 모델을 포함하도록 Gemma 모델 제품군이 업데이트되었습니다. p>또한 PaLI-3에서 영감을 받은 Google의 첫 번째 시각 언어 모델인 PaliGemma로 Gemma 제품군이 확장되고 있습니다.
범용 AI 인텔리전스 프로젝트 Astra
인텔리전스는 오랫동안 구글 딥마인드 연구의 초점이 되어 왔습니다.
어제는 OpenAI의 GPT-4o를 보고 강력한 실시간 음성 및 비디오 상호 작용 기능에 놀랐습니다.
오늘은 시각 및 음성 상호작용을 위한 범용 AI 인텔리전스인 딥마인드의 프로젝트 아스트라가 공개되어 미래 AI 비서에 대한 구글 딥마인드의 비전을 엿볼 수 있었습니다.
구글은 인공지능이 진정으로 유용하려면 인간처럼 복잡하고 역동적인 현실 세계를 이해하고 이에 대응해야 하며, 맥락을 이해하고 행동을 취하기 위해 보고 들은 것을 흡수하고 기억할 수 있어야 한다고 말합니다. 또한 사용자가 지연이나 지체 없이 자연스럽게 대화할 수 있도록 능동적이고 교육 가능하며 개인화되어야 합니다.
지난 몇 년 동안 Google은 상호 작용의 속도와 품질을 더욱 자연스럽게 만들기 위해 모델의 인식, 추론, 대화 방식을 개선하기 위해 노력해 왔습니다.
오늘 기조연설에서 구글 딥마인드는 프로젝트 아스트라의 대화형 기능을 시연했습니다.
구글은 비디오 프레임을 순차적으로 인코딩하고, 비디오와 음성 입력을 이벤트 타임라인에 결합하고, 이 정보를 캐싱하여 효율적으로 처리할 수 있는 제미니 기반의 프로토타입 인텔리전스를 개발했다고 설명했습니다. 정보를 더 빠르게 처리하기 위해 호출합니다.
또한 음성 모델링을 통해 구글은 인공지능의 발음을 개선하여 인공지능에게 더 넓은 범위의 억양을 제공할 수 있게 되었습니다. 이러한 인텔리전스는 사용 중인 문맥을 더 잘 이해하고 대화에서 빠르게 응답할 수 있습니다.
여기에 간단한 코멘트를 덧붙입니다. 머신마인드는 프로젝트 아스트라 프로젝트에서 공개한 데모가 GPT-4o 실시간 데모에 비해 인터랙션 경험 측면에서 훨씬 못 미친다고 생각합니다. 응답의 길이, 음성의 감정적 풍부함, 끊김 현상 등 모든 면에서 GPT-4o의 인터랙션 경험이 더 자연스러운 것 같습니다. 독자들은 어떻게 느낄까요?
소라의 반격: 동영상 생성 모델 베오 출시
AI 동영상과 관련해 구글은 1분 이상 길이의 다양한 스타일의 고화질 1080p 해상도 동영상을 생성할 수 있는 동영상 생성 모델 베오를 출시했다고 발표했습니다.
자연어와 시각적 의미에 대한 깊은 이해를 바탕으로 동영상 콘텐츠 이해, 고화질 이미지 렌더링, 물리 시뮬레이션 등의 분야에서 새로운 지평을 연 Veo 모델은 사용자의 창작 의도를 정확하고 세심하게 표현합니다.
예를 들어, 텍스트 프롬프트를 입력합니다:
물속에서 많은 점박이 해파리가 꿈틀거리고 있습니다. 몸은 투명하고 반짝이며 심해에서 빛을 발합니다.
(물속에서 맥동하는 많은 점박이해파리. 몸은 투명하고 심해에서 반짝입니다.)
(물속에서 많은 얼룩해파리가 발견됩니다.)
(물속에서 많은 얼룩해파리가 발견됩니다.
캐릭터 동영상을 생성하는 또 다른 예는 프롬프트를 입력하는 것입니다.
고독한 카우보이가 말을 타고 아름다운 석양을 가로지르는 아름다운 석양, 부드러운 빛, 따뜻한 색감의 열린 평원.
(아름다운 석양, 부드러운 빛, 따뜻한 색감 아래, 한 고독한 카우보이가 말을 타고 평원을 가로지른다.)
인물 클로즈업 영상, 프롬프트 입력:
어두운 카페에 홀로 앉아 있는 여자, 현관문 앞에 반쯤 완성된 소설이 펼쳐져 있습니다. 그녀 앞에 펼쳐진 반쯤 완성된 소설. 필름 느와르의 미학, 신비로운 분위기. 흑백.
(한 여성이 어두운 카페에 홀로 앉아 있고, 그 앞에 미완성 소설이 펼쳐져 있습니다. 필름 느와르의 미학, 신비로운 분위기. 흑백)
특히 Veo 모델은 전례 없는 수준의 크리에이티브 제어 기능을 제공하며 '타임랩스', '항공' 등의 영화적 용어를 이해하여 영상을 일관성 있고 사실적으로 만듭니다.
예를 들어 해안선을 시네마틱하게 항공 촬영하려면 다음과 같이 입력하세요."
하와이 정글 해안선을 따라 드론 촬영, 화창한 날
화창한 날 하와이 정글 해안선을 따라 드론 촬영
Veo는 텍스트와 함께 이미지를 사용하여 동영상을 생성할 수 있는 기능도 지원합니다. 텍스트 프롬프트와 함께 참조 이미지를 제공하면 Veo에서 생성된 동영상이 이미지 스타일과 사용자 텍스트 지침을 따릅니다.
흥미롭게도 Google이 게시한 데모는 Veo로 생성된 "알파카" 동영상으로, 메타의 오픈 소스 모델 시리즈인 라마를 연상시킵니다.
p>![](https://img.jinse.cn/7225429_image3.png)
긴 형식의 측면에서는 다음과 같습니다. 단일 프롬프트를 사용하거나 함께 스토리를 전달하는 일련의 프롬프트를 제공함으로써 이를 수행할 수 있습니다. 이는 영화 및 TV 제작에 비디오 생성 모델을 사용하는 데 있어 핵심입니다.
Veo는 생성 쿼리 네트워크(GQN), DVD-GAN, 이미지-비디오, 페나키, WALT, 비디오포에트, 뤼미에르 등 Google의 시각 콘텐츠 생성 작업을 기반으로 합니다.
이미지 src="https://img.jinse.cn/7225430_image3.png">
오늘부터 Google은 일부 크리에이터에게 VideoFX에서 Veo의 미리보기 버전을 제공할 예정이며, 크리에이터는 대기자 명단에 등록할 수 있습니다. 또한 Google은 Veo의 일부 기능 의 일부 기능을 YouTube 쇼트와 같은 제품에 도입할 예정입니다.
텍스트-이미지 생성을 위한 새로운 모델, Imagen 3
텍스트-이미지 생성 측면에서 Google은 Imagen 3의 출시로 일련의 모델을 다시 한 번 업그레이드했습니다.
Imagen 3는 디테일, 조명, 간섭 등을 생성하는 측면에서 모델을 최적화하고 업그레이드했습니다. 최적화 업그레이드와 프롬프트 이해 능력이 크게 향상되었습니다.
특정 카메라 각도나 구도 등 긴 프롬프트의 디테일을 Imagen 3가 포착할 수 있도록 Google은 학습 데이터의 각 이미지 캡션에 더 풍부한 디테일을 추가했습니다. <예를 들어 입력 프롬프트에 "약간 전경에 초점이 흐려짐", "따뜻한 조명" 등을 추가하면 Imagen 3가 요청에 따라 이미지를 생성합니다.
![](https://img.jinse.cn/7225431_image3.png)
또한 다음과 같습니다.
![]()
또한 Google은 이미지 생성 시 '흐릿한 텍스트' 문제를 해결하기 위해 이미지 렌더링을 최적화하여 결과 이미지의 텍스트가 선명하고 양식화되도록 개선했습니다.
이미지 src="https://img.jinse.cn/7225432_image3.png">
사용성을 개선하기 위해 Imagen 3는 각기 다른 작업 유형에 최적화된 여러 버전으로 제공될 예정입니다.
오늘부터 Google은 ImageFX의 일부 크리에이터에게 Imagen 3를 미리 사용할 수 있도록 제공하며, 사용자는 대기자 명단에 등록하여 사용할 수 있습니다.
6세대 TPU 칩, 트릴리움
세대별 AI는 인간이 기술과 상호 작용하는 방식에 변화를 가져오고 있습니다. 인간과 기술의 상호작용 방식을 변화시키는 동시에 비즈니스 효율성을 위한 엄청난 기회를 열어주고 있습니다. 하지만 이러한 발전은 가장 강력한 모델을 학습시키고 미세 조정하기 위해 더 많은 컴퓨팅, 메모리, 통신 성능을 필요로 합니다.
이를 위해 Google은 현재까지 가장 강력하고 에너지 효율이 높은 6세대 TPU인 트릴리움을 2024년 말에 공식 출시할 예정입니다.
TPU 트릴리움은 고도로 맞춤화된 AI 전용 하드웨어로, 이번 Google I/O 컨퍼런스에서 발표된 Gemini 1.5 Flash, Imagen 3, Gemma 2와 같은 새로운 모델을 비롯한 많은 혁신이 TPU를 사용하여 학습되고 제공됩니다.
![](https://img.jinse.cn/7225433_image3.png)
트릴리움 TPU는 TPU v5e에 비해 칩당 최고 컴퓨팅 성능이 4.7배 향상되었으며, 고대역폭 메모리(HBM)의 대역폭과 칩 간 상호 연결(ICI) 대역폭도 두 배로 증가했다고 설명됩니다. ICI) 대역폭. 또한 트릴리움에는 고급 랭킹 및 추천 워크로드에서 흔히 발생하는 초대형 임베딩을 처리하도록 설계된 3세대 스파스코어가 탑재되어 있습니다.
구글은 트릴리엄이 지연 시간을 줄이고 비용을 절감하면서 차세대 AI 모델을 더 빠르게 학습시킬 수 있다고 설명합니다. 또한 트릴리움은 이전 버전에 비해 에너지 효율이 67% 이상 향상되어 현재까지 가장 지속 가능한 Google의 TPU로 평가받고 있습니다.
트릴리움은 단일 고대역폭, 저지연 컴퓨팅 클러스터(포드)에서 최대 256개의 TPU(텐서 프로세싱 유닛)까지 확장할 수 있습니다. 이러한 클러스터 수준의 확장성 외에도, 멀티슬라이스 기술과 티타늄 IPU(인텔리전스 처리 장치)를 통해 Trillium TPU는 최대 수백 개의 클러스터로 확장할 수 있으며, 수천 개의 칩을 연결하여 슈퍼컴퓨터 인터커넥션을 형성합니다. 초당 멀티 페타비트 데이터 센터 네트워크로 상호 연결된 슈퍼컴퓨터를 형성할 수 있습니다.
Google은 2013년에 첫 번째 TPU v1을 출시한 데 이어 2017년에 클라우드 TPU를 출시했으며, 이러한 TPU는 실시간 음성 검색, 사진 물체 인식, 언어 번역, 심지어 자율 주행 자동차 회사 Nuro와 같은 제품의 기술까지 다양한 서비스를 구동하고 있습니다.
트릴리움은 또한 최첨단 AI 워크로드를 처리하도록 설계된 획기적인 슈퍼컴퓨팅 아키텍처인 Google의 AI 하이퍼컴퓨터의 일부이기도 합니다. Google은 오픈 소스 모델 학습 및 서비스를 위해 하드웨어를 최적화하기 위해 Hugging Face와 협력하고 있습니다.
이미지 src="https://img.jinse.cn/7225434_image3.png">
이것이 오늘 Google I/O 컨퍼런스의 주요 내용입니다. 보시다시피 구글은 빅 모델 기술 및 제품 측면에서 OpenAI와 본격적인 경쟁을 벌이고 있습니다. 그리고 지난 이틀간 OpenAI와 구글의 발표를 통해 빅모델 경쟁이 새로운 국면에 접어들었다는 것을 알 수 있습니다. 빅모델 기술이 더 널리 보급되고 수용되기 위해서는 멀티모달, 보다 자연스러운 상호 작용이 핵심이 되었습니다.
빅모델 기술과 제품 혁신이 우리에게 더 많은 놀라움을 선사할 2024년을 기대해봅니다.