로그인/ 가입하기

구글의 '카운터스트라이크'는 하룻밤 사이에 10개에 가까운 모델을 출시했습니다.

2024/05/15 08:31

따르다

저자: Tu Min, CSDN

올해 5월은 마치 2023년 3월로 돌아간 듯한 착각이 들 정도로 활발한 인공지능의 향연이 연이어 펼쳐지고 있습니다.

의도적인 것인지 아닌지는 모르겠지만 작년 3월 구글이 빅 언어 모델(BLM)을 위한 PaLM API를 공개하기로 결정했고, 거의 동시에 오픈AI가 가장 강력한 모델인 GPT-4를 공개해 대중을 놀라게 한 데 이어 며칠 뒤 마이크로소프트가 오피스 버킷이 GPT-4로 혁신되었다고 발표했습니다. GPT-4는 세계 최초의 제품이며, Google과 같은 회사에서 사용하는 세계 최초의 제품이기도 합니다.

다소 당황스러운 것은 올해도 같은 상황이 연출되는 것처럼 보이는데, 한편으로는 어제 아침 이른 시간에 OpenAI가 완전히 업그레이드 된 플래그십 GPT4를 이번 달 AI 봄 축제 저녁의 개막으로 가져오고, 다른 한편으로는 Microsoft가 다음 주 Bulid 2024를 개최 할 예정이므로 이번에는 Google의 핀치에 의해 다시 한번 역전되어 바람을 돌릴 수 있다는 것입니다! 두 "국의 그룹"은 오늘 아침 이른 시간에 I / O 2024 개발자 회의가 시작될 때 볼 수 있습니다.

올해의 I/O 컨퍼런스는 구글의 대표적 전략인 'AI 우선' 전략의 8년째를 맞이하는 해이기도 합니다.

01 주요 내용

예상대로 2시간 가까이 진행된 키노트에서 'AI'는 I/O 컨퍼런스 전체를 관통하는 키워드였고, 121번이나 언급될 줄은 예상하지 못했습니다.

이미지 src="https://img.jinse.cn/7225377_image3.png">

외부 경쟁자들에 맞서 구글의 순다르 피차이(Sundar Pichai) CEO는 최근 한 초청 프로그램에서 "AI는 아직 개발 초기 단계에 있다"고 말했습니다. 개발 초기 단계이지만 구글이 검색을 처음 시작한 회사가 아니었던 것처럼 결국 이 전쟁에서 구글이 승리할 것이라고 믿는다"고 말했습니다.

순다르 피차이도 I/O 컨퍼런스에서 같은 점을 강조하며 "우리는 아직 AI 플랫폼 전환의 초기 단계에 있다. 크리에이터, 개발자, 스타트업, 그리고 모두에게 큰 기회가 있을 것입니다."라고 말했습니다.

순다르 피차이는 작년에 제미니가 출시되었을 때 텍스트, 이미지, 동영상, 코드 등을 추론할 수 있는 대규모 멀티모달 모델로 자리 잡았다고 말했습니다. 2월에 Google은 긴 텍스트를 처리하는 데 획기적인 발전을 이룬 Gemini 1.5 Pro를 출시하여 컨텍스트 창을 다른 어떤 대규모 기본 모델보다 많은 100만 개의 토큰으로 확장했습니다. 현재 150만 명 이상의 개발자가 Google 도구에서 Gemini 모델을 사용하고 있습니다.

순다르 피치는 출시 행사에서 Google의 최신 개발 현황을 공유했습니다.

제미니 앱은 이제 Android 및 iOS용으로 출시되었습니다. Gemini Advanced를 통해 사용자는 Google의 가장 강력한 모델에 액세스할 수 있습니다.
Google은 전 세계 모든 개발자가 개선된 버전의 Gemini 1.5 Pro를 사용할 수 있도록 하고 있습니다. 또한 현재 1백만 개의 토큰 컨텍스트를 보유하고 있는 Gemini 1.5 Pro는 이제 35개 언어로 제공되는 Gemini Advanced에서 바로 사용할 수 있습니다.
Google은 Gemini 1.5 Pro의 컨텍스트 창을 2백만 토큰으로 확장하고 개발자에게 비공개 미리 보기로 제공했습니다.
아직 에이전트의 초기 단계에 있지만, 구글은 이미 스마트폰 카메라를 통해 세상을 분석하고, 코드를 식별 및 해석하고, 사람이 안경을 찾도록 돕고, 소리를 인식하는 프로젝트 아스트라를 시도하는 등 먼저 탐색을 시작하고 있습니다.
제미니 1.5 프로보다 가벼운 제미니 1.5 플래시가 출시되어 짧은 지연 시간과 비용 등 중요한 작업에 최적화되었습니다....
'고품질' 1080p 비디오를 생성하는 Veo 모델이자 텍스트 생성 이미지 모델인 이미지 3 출시
새로운 아키텍처와 27B 사이즈의 Gemma 2.0이 출시되었습니다.
모바일 운영체제 최초로 기기 기본 모델을 내장한 안드로이드가 제미니 모델을 심층적으로 통합하여 구글 AI를 핵심으로 하는 운영체제가 되었습니다.
6세대 TPU인 트릴리엄이 출시되어 연산 성능이 최대 4.7배 향상되었습니다.

02 구글 "광기를 죽인다", 다양한 모델 출시

매우 큰 모델을 한다고 합니다. "

구글의 "광기를 죽인다"는 다양한 모델이 출시됩니다. 이번 컨퍼런스에서 구글은 과거의 대형 모델을 업그레이드했을 뿐만 아니라 다양한 신모델을 출시했습니다.

제미니 1.5 프로 업데이트

작년 제미니 출시 당시 구글은 텍스트, 이미지, 동영상, 코드 등을 추론할 수 있는 대형 멀티 모달 모델로 포지셔닝했습니다. 2월에 Google은 긴 텍스트를 처리할 수 있는 획기적인 기능으로 컨텍스트 창 길이를 다른 어떤 대규모 기본 모델보다 많은 100만 토큰으로 확장한 Gemini 1.5 Pro를 출시했습니다.

이번 출시는 번역, 인코딩, 추론 등 Gemini 1.5 Pro의 일부 주요 사용 사례에 대한 품질 개선으로 시작되어 더욱 다양하고 복잡한 작업을 처리할 수 있게 되었습니다. 1.5 Pro는 이제 역할, 형식, 스타일과 관련된 제품 수준의 동작을 지정하는 명령을 비롯하여 복잡하고 미묘한 여러 명령을 따를 수 있습니다. 또한 사용자가 시스템 명령을 설정하여 모델 동작을 제어할 수 있는 기능도 제공합니다.

또한 Google은 Gemini API와 Google AI Studio에 오디오 이해 기능을 추가하여 이제 1.5 Pro에서 Google AI Studio에 업로드된 동영상에서 이미지와 오디오를 추론할 수 있습니다.

특히, 100만 개의 컨텍스트로도 충분하다는 듯 오늘 구글은 컨텍스트 창을 200만 개로 확장하고 개발자에게 비공개 미리 보기를 제공함으로써 기능을 더욱 확장하여 궁극적인 목표인 무한 컨텍스트를 향한 다음 단계로 나아가고 있음을 알렸습니다.

이미지 src="https://img.jinse.cn/7225378_image3.png">

2백만 토큰 컨텍스트 창이 있는 1.5 Pro에 액세스하려면 Google AI Studio에 가입하거나 Google Cloud 고객의 경우 대기자 명단에 등록해야 합니다.

새롭고 더 가벼워진 모델 Gemini 1.5 Flash

확장을 위해 제작된 경량 모델인 Gemini 1.5 Flash는 API에서 가장 빠른 Gemini 모델입니다. 지연 시간이 짧고 비용이 중요한 작업에 최적화되어 있으며, 보다 비용 효율적으로 서비스를 제공하고, 획기적으로 긴 컨텍스트 창을 제공합니다.

이미지 src="https://img.jinse.cn/7225379_image3.png">

1.5 Pro 모델보다 무게는 더 가볍지만 방대한 양의 정보에 대한 멀티모달 추론이 가능합니다. 또한 기본적으로 1백만 토큰의 컨텍스트 창이 제공되므로 1시간 분량의 동영상, 11시간 분량의 오디오, 3만 줄 이상의 코드 또는 70만 단어 이상의 코드베이스를 처리할 수 있습니다.

Gemini 1.5 Flash는 요약, 채팅, 이미지 및 동영상 캡션, 긴 문서와 표에서 데이터 추출 등에 탁월한 성능을 발휘합니다. 이는 1.5 Pro가 가장 중요한 지식과 기술을 더 큰 모델에서 더 작고 효율적인 모델로 옮기는 증류라는 프로세스를 통해 학습하기 때문입니다.

이미지 src="https://img.jinse.cn/7225380_image3.png">

Gemini 1.5 플래시의 가격은 100만 토큰당 35센트로, GPT-4o의 100만 토큰당 5달러보다 조금 더 저렴합니다.

제미니 1.5 플래시의 가격은 100만 토큰당 35센트로, GPT-4o의 100만 토큰당 5달러보다 저렴합니다.

제미니 1.5 프로와 1.5 플래시는 모두 공개 프리뷰와 구글 AI 스튜디오 및 버텍스 AI에서 사용할 수 있습니다.

구글의 첫 번째 개방형 시각 언어 모델인 PaliGemma가 출시되었습니다

PaliGemma는 PaLI-3에서 영감을 받은 강력한 개방형 VLM(시각 언어 모델)입니다. PaliGemma는 SigLIP 시각 모델과 같은 공개 구성 요소를 기반으로 하며 Gemma 언어 모델과 같은 개방형 구성 요소를 기반으로 하며 광범위한 시각 언어 작업에서 동급 최고의 미세 조정 성능을 달성하도록 설계되었습니다. 여기에는 이미지 및 짧은 동영상 캡션, 시각적 퀴즈, 이미지 내 텍스트 이해, 객체 감지 및 객체 분할 등이 포함됩니다.

구글은 개방형 탐색과 연구를 촉진하기 위해 다양한 플랫폼과 리소스를 통해 팔리젬마를 사용할 수 있으며, GitHub, Hugging Face Models, Kaggle, Vertex AI Model Garden 및 ai.nvidia.com(TensoRT-LLM 가속화)에서 PaliGemma를 찾아 JAX 및 Hugging Face Transformers와 쉽게 통합할 수 있습니다.

Gemma 2 출시

새로운 크기와 획기적인 성능 및 효율성을 위해 설계된 완전히 새로운 아키텍처로 출시되는 Gemma 2는 270억 개의 파라미터를 통해 라마 3 70B와 비슷한 성능을 제공하지만 크기는 라마 3 70B의 절반에 불과합니다.

이미지 src="https://img.jinse.cn/7225381_image3.png">

Google에 따르면 Gemma 2의 효율적인 설계로 동급 모델 대비 절반 미만의 연산이 필요합니다. 27B 모델은 NVIDIA의 GPU에서 실행되도록 최적화되어 있습니다. 27B 모델은 NVIDIA의 GPU에서 실행되도록 최적화되어 있으며, Vertex AI의 단일 TPU 호스트에서도 효율적으로 실행할 수 있어 더 많은 사용자에게 배포가 용이하고 비용 효율적입니다.

이미지 src="https://img.jinse.cn/7225382_image3.png">

<이미지 src="https://img.jinse.cn/7225383_image3.png">

Gemma 2는 6월에 출시될 예정입니다. 달에 출시됩니다.

Veo: 가장 진보된 최신 동영상 생성 모델

오픈AI의 소라에 대항할 것으로 여겨지는 구글은 1분 이상 걸리는 다양한 영화 및 비주얼 스타일의 고화질 1080p 해상도 동영상을 생성하는 동영상 생성 모델인 베오를 오늘 공개했습니다.

Veo는 생성적 쿼리 네트워크(GQN), DVD-GAN, 이미지-비디오, 페나키, WALT, 비디오포에트, 뤼미에르 등 Google이 수년간 연구해온 생성적 비디오 모델을 기반으로 아키텍처, 스케일링 법칙 및 기타 기술을 결합하여 품질과 출력 해상도를 향상시켰습니다. .

오늘부터 사용자는 대기자 명단에 등록하여 Veo에 대한 액세스를 요청할 수 있습니다.

h3>Imagen 3: 고품질 텍스트 이미지 모델

새로 출시된 Imagen 3는 Google의 이전 모델보다 산만한 시각적 인공물이 훨씬 적으며 자연어와 단서의 의도를 더 잘 이해하고 긴 단서에서 작은 디테일을 통합할 수 있습니다.

이미지 src="https://img.jinse.cn/7225384_image3.png">

이미지 3는 오늘부터 크리에이터가 ImageFX에서 비공개로 미리 볼 수 있으며 대기자 명단에 등록할 수 있습니다. 이미지 3는 곧 Vertex AI와 함께 출시될 예정입니다.<

미래 비전: 범용 AI 에이전트 프로젝트 아스트라

에이전트는 추론, 계획, 기억, 여러 단계를 앞서 '사고'하고 소프트웨어와 시스템 전반에서 작업할 수 있는 능력을 갖춘 지능형 시스템입니다. 그리고 시스템입니다.

오늘 컨퍼런스에서 구글 딥마인드 CEO이자 공동 창업자인 데미스 하비스는 구글이 일상 생활에서 유용한 일반 AI 에이전트를 개발하기 위해 노력해 왔으며, 프로젝트 아스트라(고급 시각 및 음성 응답 에이전트)가 그 주요 시도 중 하나라고 밝혔습니다. 프로젝트 아스트라(고급 시각 및 음성 응답 에이전트)가 주요 시도 중 하나입니다.

이 프로젝트는 비디오 프레임을 순차적으로 인코딩하고, 비디오와 음성 입력을 이벤트 타임라인에 결합하여 정보를 더 빠르게 처리하고, 해당 정보를 캐싱하여 효율적으로 불러올 수 있도록 Google이 개발한 프로토타입 에이전트인 Gemini를 기반으로 합니다.

또한 음성 모델을 활용하여 상담원에게 더 다양한 음색을 제공하기 위해 발음을 개선했습니다. 이러한 상담원은 대화에서 사용 중인 문맥을 더 잘 이해하고 신속하게 대응할 수 있습니다.

이번 출시 행사에서 시연된 사례에서는 <프로젝트 아스트라>를 통해 실제 시나리오에서 소리를 내는 사물을 자동으로 인식하고 소리를 내는 특정 부분을 직접 찾을 수 있을 뿐만 아니라 컴퓨터 화면에 나타나는 코드의 역할을 설명하거나 안경을 찾는 데 도움을 주는 등의 작업을 수행할 수 있습니다.

"이와 같은 기술을 통해 사람들이 휴대폰이나 안경 장치를 통해 전문 AI 비서를 갖게 되는 미래를 쉽게 상상할 수 있습니다. 이러한 기능 중 일부는 올해 말부터 구글 제품에 적용될 예정입니다."라고 구글은 말했습니다.

03제미니 고급 업그레이드를 통한 맞춤형 제미니

전 세계 모든 개발자를 위한 제미니 고급 구독에 개선된 제미니 1.5 프로가 도입되었습니다. 이제 모든 개발자는 35개 언어로 제공되는 개선된 버전의 Gemini 1.5 Pro를 사용할 수 있습니다.

기본적으로 위에서 언급했듯이 Gemini 1.5 Pro에는 1백만 개의 컨텍스트 토큰이 있으며, 이 긴 컨텍스트 창은 Gemini Advanced가 총 1,500페이지에 달하는 여러 개의 대용량 문서를 이해하거나 100개의 이메일을 요약하거나 1시간 분량의 동영상 콘텐츠 또는 30,000줄 이상의 코드 기반을 처리할 수 있다는 것을 의미합니다. 코드 베이스.

Google 드라이브에 파일을 업로드하거나 기기에서 직접 업로드할 수 있는 기능을 갖춘 Gemini Advanced는 곧 스프레드시트와 같이 업로드된 데이터 파일에서 인사이트를 발견하고 맞춤형 시각화 및 차트를 동적으로 구축하는 데이터 분석가 역할을 하게 될 것이라고 밝혔습니다.

이미지 src="https://img.jinse.cn/7225385_image3.png">

보다 개인화된 경험을 위해, Gemini Advanced 구독자는 곧 Gemini의 Gems. -- 맞춤형 버전의 Gemini를 만들 수 있게 됩니다. 피트니스 친구, 수셰프, 코딩 친구, 창작 글쓰기 가이드 등 원하는 젬을 만들 수 있습니다. "당신은 나의 러닝 코치, 매일 러닝 스케줄을 알려주고 긍정적이고 낙관적이며 동기 부여를 유지해줘"와 같이 Gem이 무엇을 하고 싶고 어떻게 반응하길 원하는지 간단히 설명하면 됩니다. Gemini는 이러한 설명을 받아 클릭 한 번으로 사용자의 특정 요구 사항을 충족하는 Gem을 만들 수 있습니다.

04 AI로 Google 검색 다시 작성하기 Google 검색

상업적 시나리오를 현장에 적용하지 않는다면 빅 모델 기술의 반복은 '종이 위'에만 있는 것처럼 보입니다. OpenAI가 걸어온 길은 AI 응용 분야에서 속도 경쟁을 벌이고 있는 구글과 마이크로소프트의 그것과는 다릅니다. 검색 엔진으로 시작한 구글로서는 AI의 물결을 놓치지 않을 수밖에 없습니다.

구글의 부사장 겸 검색 책임자인 리즈 리드(Liz Reid)는 "제너레이티브 AI를 통해 검색은 상상 이상의 일을 할 수 있습니다. 따라서 연구부터 계획, 브레인스토밍에 이르기까지 사용자가 생각하는 모든 것 또는 수행해야 하는 모든 것을 떠올릴 수 있으며, 구글이 모든 심부름을 처리할 것입니다. "

AI 오버뷰: "한 번의 검색으로 필요한 모든 정보"

구글은 이번 출시 행사에서 "한 번의 검색으로 필요한 모든 정보"를 제공하는 AI 오버뷰라는 기능을 공개했습니다. 검색하면 모든 정보를 얻을 수 있습니다.

간단히 말해, 빠른 답을 원하지만 필요한 모든 정보를 수집할 시간이 없는 경우(예: 새로운 요가 또는 필라테스 스튜디오를 찾고 있는데 지역 주민들에게 인기가 있고, 쉽게 갈 수 있으며, 신규 회원에게 할인을 제공하는 스튜디오를 원하는 경우) 간단히 요구 사항을 명시하고 검색을 실행하면 됩니다. 한 번의 검색으로 요구 사항을 입력하면 AI 오버뷰가 복잡한 문제에 대한 답변을 제공합니다.

동영상을 촬영하고 AI의 도움 받기

동영상 이해 능력의 발전에 힘입어 Google은 시각적 검색 기능을 강화했습니다. 시각적 검색 기능이 향상되었습니다. Google 렌즈 동영상 검색을 사용하면 문제가 발생하거나 주변에 보이는 사물(움직이는 물체 포함)을 사진으로 찍어 답을 검색할 수 있으므로 텍스트로 설명해야 하는 시간과 번거로움을 줄일 수 있습니다.

그러나 이 두 기능은 현재 미국에서만 사용할 수 있으며, 더 많은 국가로 확대될 예정입니다.

검색 수준 외에도 대형 모델의 출시로 제품의 지능은 더욱 향상될 것입니다.

사진에 질문

사진 검색 앱 수준에서 Google은 사진에 질문 기능을 도입합니다.

제미니를 사용하면 사진에서 다음과 같은 다양한 맥락 정보를 파악할 수 있습니다: 딸이 언제 수영을 배웠나요? 딸은 어떻게 지내나요? 사진에 질문은 이 모든 정보를 한데 모아 사용자가 빠르게 정보를 수집하고 퍼즐을 풀 수 있도록 도와줍니다.

이미지 src="https://img.jinse.cn/7225388_image3.png">

이 기능은 아직 출시되지 않았으며, 올여름에 출시될 예정이라고 Google은 밝혔습니다.

Gemini 1.5 Pro가 에 도입되었습니다

Google은 또한 Gmail에서 이메일을 검색하고 학교의 워크플로에 연결하여 학교의 최신 이메일 학교와 주고받은 최근 이메일을 검색하여 자녀의 학교에서 일어나는 모든 일을 파악할 수 있습니다. Gemini에 학교에서 보낸 모든 최근 이메일을 요약해 달라고 요청할 수 있습니다. 백그라운드에서 관련 이메일을 식별하고 PDF와 같은 첨부 파일도 분석합니다.

노트북LM에 오디오 출력 기능 추가

노트북LM은 작년 7월 Google에서 출시한 AI 노트 필기 앱으로 업로드된 문서를 요약하고 아이디어를 생성하는 기능입니다.

멀티모달 빅 모델 기술을 기반으로 구글은 앱에 오디오 출력 기능을 추가했습니다. Gemini 1.5 Pro를 사용하여 사용자의 소스 자료를 가져와 개인화된 대화형 오디오 대화를 생성합니다.

05안드로이드용 심층 Gemini 통합

운영 체제를 AI로 업그레이드하는 것은 Microsoft와 Google이 열심히 추진하고 있는 작업입니다. 수십억 명의 사용자를 보유한 세계 최고의 모바일 운영 체제인 Google은 Android에 Gemini 모델을 통합하고 여러 가지 유용한 AI 기능을 도입했다고 밝혔습니다.

이미지 src="https://img.jinse.cn/7225389_image3.png">

예를 들어 '서클 투 서치'는 사용자가 앱 전환 없이 동그라미 그리기, 낙서, 탭 등의 조합을 사용하여 검색할 수 있게 해줍니다. 예를 들어 '서클 투 서치'는 사용자가 앱을 전환하지 않고도 동그라미 그리기, 낙서, 탭 등의 간단한 상호작용을 통해 더 많은 정보에 액세스할 수 있게 해줍니다. 현재 서클 투 서치는 학생들이 다양한 물리 및 수학 문제를 풀면서 발견한 힌트를 동그라미로 표시하여 단순한 답이 아닌 더 깊이 이해할 수 있도록 단계별 설명을 제공하여 숙제에 도움을 줄 수 있습니다.

또한 Google은 사용자가 앱 상단에 있는 Gemini 오버레이를 더 쉽게 불러올 수 있도록 Android용 Gemini를 곧 업데이트할 예정이므로 더 다양한 방법으로 Gemini를 쉽게 사용할 수 있습니다.

"안드로이드는 기기에 기본 탑재된 최초의 모바일 운영체제"라며 "제미니 나노를 통해 안드로이드 사용자들은 AI 기능을 빠르게 경험할 수 있습니다. 구글은 올해 말 픽셀을 시작으로 멀티모달을 탑재한 제미니 나노의 최신 모델을 출시할 예정이라고 밝혔습니다. 멀티 모달이 탑재된 나노. 즉, 새로운 Pixel 휴대전화가 텍스트 입력을 처리할 수 있을 뿐만 아니라 시각, 소리, 음성 등 더 많은 문맥 정보를 이해할 수 있게 될 것입니다.

또한 Google은 Android에서 Gemini Nano를 사용하여 '은행'이라고 주장하는 사람이 긴급 송금을 요청하거나 기프트 카드로 결제하거나 카드 PIN 또는 비밀번호와 같은 개인 정보를 요청하는 등 일반적으로 사기와 관련된 대화를 통화 중에 감지하면 실시간 알림을 제공합니다(이는 좋은 생각일 수 있음). 예를 들어 '은행'을 사칭하는 사람이 긴급 송금, 기프트 카드 결제, 카드 PIN 또는 비밀번호와 같은 개인 정보(일반적인 은행 요청이 아님)를 요청하는 경우 알림을 받게 되지만 이 기능은 아직 베타 버전입니다.

06 6세대 TPU, 트릴리움
선다 피차이는 최첨단 모델을 훈련하려면 많은 컴퓨팅 파워가 필요하다고 말했습니다. ML 컴퓨팅에 대한 업계의 수요는 지난 6년 동안 백만 배나 증가했습니다. 그리고 매년 10배씩 증가하고 있습니다.
이러한 ML 컴퓨팅 수요 증가에 발맞추기 위해 구글은 이전 세대 TPU인 v5e에 비해 트릴리움 칩당 4.7배 더 뛰어난 컴퓨팅 성능을 제공하는 6세대 TPU인 트릴리움을 출시했습니다. 이러한 수준의 성능을 달성하기 위해 구글은 행렬 곱셈 유닛(MXU)의 크기를 확장하고 클럭 속도를 높였습니다.
또한 트릴리움에는 고급 랭킹 및 추천 워크로드에서 흔히 발생하는 초대형 임베딩을 처리하는 데 특화된 가속기인 3세대 스파스코어(SparseCore)가 탑재되어 있어 트릴리움 TPU는 차세대 기본 모델을 더 빠르게 훈련하고 더 적은 지연 시간과 더 낮은 비용으로 서비스를 제공할 수 있습니다.
트릴리움 TPU는 TPU v5e보다 에너지 효율이 67% 이상 높습니다.
구글은 2024년 말까지 트릴리움을 클라우드 고객에게 제공할 것으로 알려졌습니다.
07 보안 조치
위 모델 및 제품 업데이트 외에도, 구글은 보안을 위한 보안을 위한 최신 조치를 취했습니다.
한편으로 Google은 새로운 Gemini-기반 모델 제품군을 도입하고 학습에 맞게 미세 조정하여 학습자의 인지 부하를 관리하고 학습자의 목표, 요구, 동기에 적응할 수 있도록 연구 기반의 학습 과학과 학문적 원칙을 Google 제품에 통합하는 을 출시했습니다.
이미지 src="https://img.jinse.cn/7225394_image3.png">
다른 한편으로, 지식을 더 쉽게 접근하고 소화할 수 있도록 하기 위해 Google은 새로운 실험 도구인 일루미네이트를 만들었습니다. 복잡한 연구 논문을 짧은 오디오 대화로 변환하는 컨텍스트 기능을 활용하여 몇 분 만에 두 개의 AI 생성 음성으로 구성된 대화를 생성하여 연구 논문의 주요 인사이트에 대한 개요와 짧은 토론을 제공할 수 있는 Illuminate를 개발했습니다.
마지막으로, 구글은 'AI 지원 레드팀' 기술을 도입하여 시스템의 취약점을 사전에 테스트하고 이를 개선하기 위해 노력하고 있으며, 워터마킹 도구인 SynthID를 텍스트와 비디오의 두 가지 새로운 모드로 확장하여 AI가 생성한 콘텐츠를 더 쉽게 인식할 수 있도록 했습니다.
08 Google I/O를 어떻게 바라보시나요?
이것은 Google I/O 2024 기조연설의 주요 하이라이트이며, 대부분은 기다려야 하지만 다양한 제품을 선보일 예정입니다.
이 컨퍼런스가 끝나고 많은 전문가들이 몇 가지 의견을 내놓았습니다. NVIDIA의 수석 리서치 매니저인 Jim Fan은 다음과 같이 말했습니다."
Google I/O. 몇 가지 생각: 이 모델은 멀티모달 입력으로 보이지만 멀티모달 출력은 아닌 것으로 보이며, Imagen-3 및 뮤직 젠 모델은 여전히 별도의 구성 요소로 Gemini에서 분리되어 있습니다. 모든 모달 입력/출력의 기본 병합은 피할 수 없는 미래의 추세입니다.
"더 로봇 음성 사용", "2배 빠르게 말하기", "2배 빠르게 말하기", "더 로봇 음성 사용", "2배 빠르게 말하기", "2배 빠르게 말하기", "2배 빠르게 말하기", "2배 빠르게 말하기", "2배 빠르게 말하기", "2. 몇 배 더 빠르게", "이 이미지를 반복적으로 편집", "일관된 만화 스트립 생성" 등이 있습니다.
감정이나 배경 소리 등 모달 경계를 넘나드는 정보 손실이 없습니다.
새로운 컨텍스트 기능을 제공합니다. 적은 수의 예제를 통해 모델에 다양한 감각을 새로운 방식으로 결합하도록 가르칠 수 있습니다.
GPT-4o는 완벽하지는 않지만 폼 팩터를 제대로 구현합니다. Andrej의 LLM-as-OS 비유를 사용하자면, 가능한 한 많은 파일 확장자를 기본적으로 지원하는 모델이 필요합니다.
Google은 한 가지 제대로 하고 있습니다. 마침내 검색창에 AI를 통합하기 위해 진지한 노력을 기울이고 있습니다. 로그인 페이지에서 계획 수립, 실시간 검색, 멀티모달 입력 등 에이전트의 흐름이 느껴집니다. Google의 가장 강력한 해자는 배포입니다. Gemini가 최고의 모델일 필요는 없으며, 전 세계에서 가장 많이 사용되는 모델이 될 수 있습니다.
저명한 AI 학자인 엔다 우는 "I/O에서 멋진 발표를 한 모든 Google 친구들에게 축하를 보냅니다! 개인적으로 2백만 개의 토큰 입력 컨텍스트 창과 온디바이스 AI에 대한 더 나은 지원을 갖춘 Gemini가 앱 빌더에게 새로운 기회를 열어줄 것으로 기대합니다!"라고 말했습니다.

Preview

유익한 보고서를 통해 암호화 산업에 대한 더 넓은 이해를 얻고 비슷한 생각을 가진 다른 저자 및 독자와 심도 있는 토론에 참여하십시오. 성장하는 Coinlive 커뮤니티에 참여하실 수 있습니다.https://t.me/CoinliveSG

댓글 추가

로그인당신의 멋진 의견을 남겨주세요…

0 코멘트

가장 이른

더 많은 댓글 로드

추가 뉴스 google ドキュメント丸で囲む

9월 25
회색 음영: GBTC는 출시된 지 11년이 지났으며, 누적 거래량은 2,847억 달러에 달합니다.
강세
약세
7월 15
Fileverse 출시Google 문서도구"ddocs"
강세
약세
6월 17
ZK네이션: FAQ 문서가 지속적으로 업데이트되며, 커뮤니티 피드백 이메일 주소가 추가되었습니다.
강세
약세
6월 14
라이엇 비트팜, 인수 입찰 중 포이즌 필 방어를 구현하다
강세
약세
6월 12
라이엇 플랫폼, 주주에게 불이익을 주는 '포이즌 필' 제도를 채택한 비트팜을 비판하다
강세
약세
5월 15
청두에서 대규모 지하 환치기 사건 적발
강세
약세
12월 06
스마트 작성 기능으로 수학 문제 해결력을 높여주는 Google 문서 도구
강세
약세
10월 09
FRAX, 공식 FRAX v3 문서 공개
강세
약세
5월 25
최근 Google 문서 공유를 통한 표적 피싱 공격 급증
강세
약세
2월 02
OneKey 개발자: 스크립트, 매크로가 포함된 Google Docs 링크 형태의 새로운 해킹 방법 발견
강세
약세

더

추가 뉴스 google ドキュメント丸で囲む

더

구글의 '카운터스트라이크'는 하룻밤 사이에 10개에 가까운 모델을 출시했습니다.

01 주요 내용