Tại hội nghị nhà phát triển Google I/O ở Mountain View, California, hôm thứ Ba, Google đã công bố một loạt sản phẩm trí tuệ nhân tạo (AI) tổng hợp, bao gồm trợ lý Gemini Live, các bản cập nhật cho nền tảng Android và Workspaces cũng như sản phẩm Tìm kiếm được cải tiến.
Những thông báo này là một phần trong chiến lược rộng lớn hơn của Google nhằm giành lại vị trí dẫn đầu về AI của Thung lũng Silicon, sau mối quan hệ hợp tác đáng ngạc nhiên của Microsoft với OpenAI vào năm 2022.
Ngoài ra, Google đặt mục tiêu đa dạng hóa hoạt động kinh doanh quảng cáo cốt lõi của mình bằng các thiết bị mới và công cụ hỗ trợ AI.
Nhấn mạnh tầm quan trọng của AI, Giám đốc điều hành Google Sundar Pichai lưu ý rằng thuật ngữ "AI" đã được nhắc đến 120 lần trong sự kiện này, theo thống kê của nền tảng AI của Google, Gemini.
Một loạt các cập nhật này diễn ra sau sự ra mắt gần đây của hệ thống AI mới nhất của OpenAI, GPT4o, cho thấy các khả năng nâng cao như đọc biểu cảm của con người qua camera điện thoại và tham gia vào các cuộc trò chuyện trôi chảy, thậm chí là tán tỉnh.
Google rõ ràng có ý định chứng minh rằng các công cụ AI của mình cũng thành thạo như nhau trong loại "đa phương thức" sự hiểu biết.
Để thể hiện rõ ràng tinh thần cạnh tranh "bạn làm được gì, tôi có thể làm tốt hơn"; tư duy, Google đã xem trước một cách chiến lược các hệ thống AI chạy trên điện thoại của mình ngay trước thông báo của OpenAI.
Bạn có thể xem rtóm tắt từ Hội nghị I/O của Google tại đây .
Google muốn AI trở thành một phần trong mọi việc bạn làm
Trong bài phát biểu quan trọng, Google đã thể hiện tầm nhìn của mình về việc tích hợp AI vào các hoạt động của người dùng. cuộc sống hàng ngày, giới thiệu cách các sản phẩm AI của họ có thể hỗ trợ chia sẻ thông tin, tương tác với người khác, tìm đồ vật xung quanh nhà, lập lịch trình, mua sắm và sử dụng thiết bị Android.
Google đặt mục tiêu biến AI của mình trở thành một phần không thể thiếu trong mọi hoạt động của người dùng.
Pichai đã giới thiệu một số tính năng mới được hỗ trợ bởi mẫu AI mới nhất của mình, Gemini 1.5 Pro.
Một tính năng đáng chú ý, được gọi là Hỏi Ảnh, cho phép người dùng tìm kiếm thư viện ảnh của họ để có thông tin chi tiết cụ thể, chẳng hạn như xác định thời điểm con gái họ học bơi hoặc nhớ lại biển số xe từ các hình ảnh đã lưu.
Pichai cũng giới thiệu cách Gemini 1.5 Pro có thể tóm tắt các email gần đây từ trường học của trẻ bằng cách phân tích tệp đính kèm và trích xuất các điểm chính cũng như mục hành động.
Hai phiên bản của mẫu Gemini 1.5 Pro đã được ra mắt: Gemini 1.5 Pro Flash, một phiên bản nhẹ, nhanh và tiết kiệm chi phí với các khả năng đa phương thức và độ dài bối cảnh mã thông báo 1M, tự hào với MMLU là 78,9% so với mô hình ban đầu? là 81,9%. Mẫu Gemini 1.5 Pro tiêu chuẩn hiện có chiều dài bối cảnh gấp đôi là 2 triệu mã thông báo.
Mô hình mới này có sẵn thông qua danh sách chờ dành cho các nhà phát triển được chọn thông qua API.
Trong suốt bài thuyết trình, các giám đốc điều hành của Google đã nhấn mạnh các khả năng khác, chẳng hạn như khả năng "đọc" của mẫu máy mới nhất. một cuốn sách giáo khoa và biến nó thành một bài giảng AI với những giáo viên có giọng nói tự nhiên có thể trả lời các câu hỏi.
Tổng quan về AI: Cách mạng hóa việc tạo kết quả tìm kiếm
Tháng 5 năm ngoái, Pichai đã công bố kế hoạch đầy tham vọng của công ty nhằm tái tạo lại tất cả các sản phẩm của mình thông qua AI.
Tuy nhiên, trước những rủi ro liên quan đến công nghệ AI thế hệ mới, chẳng hạn như khả năng phát tán thông tin sai lệch, Google ban đầu thận trọng khi tích hợp nó vào công cụ tìm kiếm của mình, công cụ phục vụ hơn hai tỷ người dùng và tạo ra doanh thu 175 tỷ USD vào năm ngoái.
Tại hội nghị, Pichai đã tiết lộ cách công việc chuyên tâm về AI của công ty hiện đã được tích hợp vào công cụ tìm kiếm của mình.
Bắt đầu từ tuần này, người dùng Hoa Kỳ (US) sẽ trải nghiệm một tính năng mới, Tổng quan về AI, trước đây gọi là Trải nghiệm tạo tìm kiếm (SGE) đã được công bố tại Google I/O 2023.
Tính năng này tạo ra các bản tóm tắt thông tin phía trên các kết quả tìm kiếm truyền thống và sẽ sớm có sẵn cho người dùng trên toàn thế giới.
Đến cuối năm nay, dự kiến sẽ có hơn một tỷ người được tiếp cận với công nghệ này.
Liz Reid, người đứng đầu bộ phận Tìm kiếm mới được bổ nhiệm của Google, cho biết:
“Những gì chúng tôi thấy với AI tổng quát là Google có thể thực hiện nhiều công việc tìm kiếm cho bạn hơn. Việc tìm kiếm có thể khiến bạn mất rất nhiều công sức, vì vậy bạn có thể tập trung vào những phần bạn muốn làm để hoàn thành công việc hoặc vào những phần khám phá mà bạn thấy thú vị."
Vậy Tổng quan về AI hoạt động như thế nào?
Trải nghiệm mới của Google tích hợp AI tổng hợp với kết quả tìm kiếm để cung cấp các bản tóm tắt và câu trả lời do AI tạo ra dựa trên thông tin trực tiếp.
Được hỗ trợ bởi mô hình AI Gemini, cải tiến này sẽ hiển thị Tổng quan về AI cho nhiều truy vấn khi hệ thống xác định rằng AI tổng hợp có thể hữu ích.
Những bản tóm tắt do AI tạo này sẽ xuất hiện phía trên các kết quả tìm kiếm truyền thống, đẩy chúng xuống sâu hơn trên trang.
Thông thường, Tổng quan về AI hiển thị một số liên kết có liên quan cho mỗi truy vấn nhưng chúng chỉ hiển thị đầy đủ sau khi mở rộng phản hồi.
Google so sánh Tổng quan về AI với các tính năng như Bảng kiến thức hoặc Đoạn trích nổi bật và không thể tắt chúng hoàn toàn.
Tuy nhiên, Google sẽ giới thiệu một "web" lọc trong Tìm kiếm để bỏ qua phản hồi của AI và chỉ hiển thị các liên kết truyền thống.
Mối quan tâm lớn về Tìm kiếm nâng cao bằng AI của Google là tác động của nó đối với các trang web phụ thuộc nhiều vào lưu lượng tìm kiếm.
Mối lo ngại lớn nhất là Tổng quan về AI có thể làm tăng thêm lo lắng của các nhà xuất bản web về việc giảm lưu lượng truy cập từ Google Tìm kiếm, làm trầm trọng thêm những thách thức trong một ngành vốn đã căng thẳng do xung đột với các nền tảng công nghệ khác.
Trên Google, người dùng sẽ gặp những bản tóm tắt dài hơn về nhiều chủ đề khác nhau, có khả năng làm giảm nhu cầu truy cập các trang web bên ngoài.
Một số ước tính cho thấy rằng các trang web có thể mất tới 25% lưu lượng truy cập trong vài năm tới do sự thay đổi này, cộng với sự sụt giảm gần đây do thuật toán Tìm kiếm gây ra.
Tuy nhiên, Google khẳng định rằng các liên kết có trong Tổng quan về AI nhận được nhiều lượt nhấp chuột hơn so với các liên kết trong kết quả tìm kiếm truyền thống.
Công ty nhấn mạnh cam kết hướng lưu lượng truy cập đến các nhà xuất bản và người sáng tạo khi Tổng quan về AI tiếp cận được nhiều người dùng hơn.
trong mộtbài đăng blog gần đây Reid tiết lộ rằng các liên kết nổi bật trong Tổng quan về AI nhận được nhiều lượt nhấp chuột từ người dùng hơn so với khi chúng được hiển thị dưới dạng kết quả tìm kiếm truyền thống.
Reid nói thêm:
“Chúng tôi sẽ tiếp tục tập trung vào việc gửi lưu lượng truy cập có giá trị đến các nhà xuất bản và người sáng tạo.”
Ngoài ra, Google đã công bố các tính năng mới sẽ được thử nghiệm với những người tham gia Labs trong Tìm kiếm.
Các tính năng này bao gồm các tùy chọn để tinh chỉnh Tổng quan về AI bằng cách đơn giản hóa ngôn ngữ, cho phép suy luận nhiều bước cho các truy vấn phức tạp, cung cấp khả năng lập kế hoạch, sắp xếp kết quả tìm kiếm bằng AI và kết hợp video làm một phần của lời nhắc tìm kiếm.
Google gợi ý rằng những phát triển này chỉ là bước khởi đầu cho nỗ lực của họ nhằm định hình lại Google Tìm kiếm, với nhiều cải tiến hơn nữa trong tương lai.
Trợ lý AI được cá nhân hóa rất riêng của bạn: Gemini Live
Lần ra mắt mới nhất của Google cũng bao gồm Gemini Live, một trợ lý AI được cá nhân hóa sẵn sàng cách mạng hóa sự tương tác của người dùng.
Được hỗ trợ bởi mô hình Gemini 1.5 Pro tiên tiến của Google, Gemini Live cung cấp cho người dùng khả năng tương tác với chatbot thông qua lệnh thoại, với các phản hồi được gửi bằng giọng nói tự nhiên.
Điều làm nên sự khác biệt của điều này là khả năng thích ứng của chatbot, cho phép người dùng ngắt lời và đặt câu hỏi làm rõ giữa cuộc trò chuyện.
Amar Subramanya, phó chủ tịch kỹ thuật của Google về trải nghiệm Gemini, đã chia sẻ những hiểu biết sâu sắc về tiềm năng biến đổi của Gemini Live trong cuộc phỏng vấn với Yahoo Finance.
Subramanya tiết lộ việc cá nhân anh sử dụng Gemini Live cho các buổi động não và trao đổi ý tưởng, thể hiện tính linh hoạt của trợ lý này trong việc hỗ trợ các quá trình sáng tạo.
Những người thử nghiệm ban đầu cũng đã khám phá các khả năng của Gemini Live, tận dụng nó cho các nhiệm vụ như dịch thuật với kết quả đầy hứa hẹn.
Sắp tới, Google có kế hoạch tích hợp quyền truy cập máy ảnh vào Gemini Live, trao quyền cho trợ lý tương tác với các đối tượng và môi trường trong thế giới thực—một tính năng gợi nhớ đến các cuộc trình diễn GPT4o của OpenAI.
Subramanya kể lại một tình huống trong đó anh giao nhiệm vụ cho trợ lý tìm nguồn công thức làm bánh dứa úp ngược cho một buổi tụ tập 15 người và liên tục thêm các nguyên liệu vào danh sách mua sắm trên Keep của mình.
Người trợ lý đã điều chỉnh một cách thành thạo công thức dành cho tám người, chia tỷ lệ cho phù hợp và biên soạn một cách hiệu quả các món cần thiết để thuận tiện cho Subramanya.
Ngoài ra, trên mặt trận Android, Google đang mở rộng phạm vi tiếp cận của trợ lý của mình với các ứng dụng phổ biến như Google Messages và Gmail, nâng cao năng suất của người dùng bằng cách cho phép các tác vụ như chèn hình ảnh do Gemini tạo vào tin nhắn.
Gemini Nano của Google tự hào có khả năng xác định những kẻ lừa đảo qua điện thoại tiềm năng trong các cuộc trò chuyện.
Tính năng này hoạt động bằng cách phát hiện các kiểu hội thoại cụ thể thường có liên quan đến các hoạt động lừa đảo.
Đáng chú ý, tất cả quá trình xử lý phát hiện lừa đảo đều diễn ra cục bộ trên thiết bị của bạn, đảm bảo quyền riêng tư khi các cuộc hội thoại vẫn được giới hạn trong điện thoại của bạn mà không được tải lên web.
Dự án Astra của Phòng thí nghiệm AI DeepMind của Google
Google đã công bố ngắn gọn Project Astra, một sáng tạo của phòng thí nghiệm AI DeepMind, sẵn sàng cách mạng hóa cuộc sống hàng ngày bằng cách khai thác camera điện thoại để diễn giải thông tin trong thế giới thực.
Nỗ lực này hứa hẹn sẽ xác định được các vật thể và thậm chí xác định vị trí các vật phẩm bị thất lạc, gợi ý về sự tích hợp trong tương lai với kính thực tế tăng cường.
Demis Hassabis, giám đốc điều hành của DeepMind,chi tiết trong một bài đăng trên blog Người dùng chatbot Gemini sẽ có thể tiếp cận những khả năng chọn lọc của Project Astra trong năm nay.
Được cung cấp bởi Gemini, dự án này cung cấp hỗ trợ theo thời gian thực trên các định dạng âm thanh, văn bản, video và hình ảnh.
Mặc dù được giới thiệu dưới dạng nguyên mẫu nhưng tiềm năng của Astra đã được thể hiện qua các video được quay trước vì nó vẫn không có sẵn cho tất cả người dùng.
Những người thử nghiệm ban đầu đã ghi nhận độ trễ dài hơn cũng như nhận thấy những hạn chế về trí tuệ cảm xúc và giai điệu so với GPT4o.
Tuy nhiên, Astra thể hiện khả năng chuyển văn bản thành giọng nói mạnh mẽ và có khả năng hỗ trợ vượt trội cho các tương tác video và ngữ cảnh dài đang diễn ra.
Veo là đối thủ Sora của OpenAI
Tiếp theo của Google là Veo, mô hình AI mới nhất của hãng được thiết kế để tạo ra video độ phân giải cao từ các kiểu nhập văn bản đơn giản, giống như hệ thống Sora của OpenAI.
#Google Mô hình AI 'Veo' James Manyika, Phó chủ tịch cấp cao của Google, cho biết có thể được sử dụng bởi những người sáng tạo về khả năng sử dụng gen AI ngày càng tăng. Công ty đã công bố Veo là mô hình tạo video tiên tiến nhất của mình tại hội nghị Google I/O 2024.@Google@AshmitTejKumar#GoogleIO#AI#Tôi hiểu rồipic.twitter.com/2WcOS1YDNN
- CNBC-TV18 (@CNBCTV18News)Ngày 15 tháng 5 năm 2024
Một
Công nghệ này đánh dấu sự tiến bộ đáng kể về khả năng tạo video, hứa hẹn cho người sáng tạo khả năng xem trước Veo và tham gia danh sách chờ để có quyền truy cập.
Sự mong đợi ngày càng tăng khi Google có kế hoạch tích hợp các chức năng của Veo vào YouTube Shorts và các nền tảng khác vào cuối năm nay.
Veo, được phát triển bởi Google DeepMind, tự hào có các tính năng ấn tượng:
-Nó cung cấp video ở độ phân giải 1080p tuyệt đẹp.
-Video có thể kéo dài hơn một phút, mang lại sự linh hoạt trong việc tạo nội dung.
-Veo cung cấp nhiều phong cách điện ảnh và hình ảnh đa dạng để phù hợp với nhiều sở thích khác nhau.
Mô hình linh hoạt này có thể tạo hoạt ảnh cho hình ảnh hoặc chỉnh sửa video dựa trên lời nhắc bằng văn bản, có hỗ trợ chỉnh sửa ẩn, cho phép sửa đổi mục tiêu trong video.
Google đã nâng cao dữ liệu đào tạo của Veo bằng cách làm phong phú thêm phụ đề video với các chi tiết bổ sung.
Hơn nữa, Veo tận dụng các biểu diễn nén của video, được gọi là tiềm ẩn, để nâng cao hiệu suất, tốc độ tạo và hiệu quả.
Google công bố một số tính năng AI khác
Phiên họp kéo dài 2 giờ này có rất nhiều nội dung cập nhật và thông báo về sản phẩm trải rộng trên hệ sinh thái Google, giới thiệu những cải tiến trên Tìm kiếm, Không gian làm việc, Ảnh, Android, v.v.
Đáng chú ý, Imagen 3, mô hình tạo hình ảnh tiên tiến của họ, sẽ sớm ra mắt với nhiều phiên bản được thiết kế riêng cho các tác vụ đa dạng, từ phác thảo nhanh đến tạo ra hình ảnh có độ phân giải cao.
Ngoài ra, Gemma 2 và PaliGemma, hai phần bổ sung mới cho gia đình Gemma, đánh dấu một bước tiến đáng kể trong các mô hình nguồn mở.
PaliGemma, mô hình nguồn mở ngôn ngữ tầm nhìn đầu tiên của Google, hiện đã có sẵn, trong khi Gemma 2, với 27 tỷ thông số, vượt qua phiên bản tiền nhiệm và ra mắt vào tháng 6.
Hơn nữa, việc ra mắt Lyria, công cụ tạo nhạc của Google, bổ sung thêm một khía cạnh khác cho các dịch vụ đổi mới của họ.
Với hơn 15 buổi giới thiệu dự án và công bố sản phẩm, sự kiện này nhấn mạnh cam kết của Google trong việc thúc đẩy công nghệ trên nhiều lĩnh vực khác nhau.
Con đường dẫn đến sự thống trị của AI của Google đầy rẫy những rào cản & đối thủ
Trong con mắt của nhà phân tích Jacob Bourne từ Emarketer, việc chú ý đến AI tại hội nghị nhà phát triển Google năm nay không có gì đáng ngạc nhiên.
Anh ấy nói:
“Bằng cách trưng bày các mẫu mới nhất của mình và cách chúng hỗ trợ các sản phẩm hiện có với khả năng tiếp cận người tiêu dùng mạnh mẽ, Google đang chứng minh cách họ có thể tạo sự khác biệt một cách hiệu quả so với các đối thủ.”
Ông coi việc tiếp nhận các công cụ mới này như một phép thử cho khả năng của Google trong việc điều chỉnh sản phẩm tìm kiếm của mình cho phù hợp với bối cảnh đang phát triển của AI sáng tạo.
Anh ấy nói thêm:
“Để duy trì lợi thế cạnh tranh và làm hài lòng các nhà đầu tư, Google sẽ cần tập trung vào việc chuyển những cải tiến AI của mình thành các sản phẩm và dịch vụ có lợi nhuận trên quy mô lớn”.
Khi công ty mở rộng nỗ lực AI của mình, công ty cam kết thực hiện các biện pháp bảo vệ bổ sung để giảm thiểu khả năng lạm dụng.
Hơn nữa, Google nhấn mạnh cam kết cải tiến khả năng của các mô hình mới thông qua quan hệ đối tác với các chuyên gia và tổ chức.
Tuy nhiên, trong khi Google tăng cường tập trung vào AI trong năm qua, hãng đã gặp phải những trở ngại đáng chú ý trong quá trình phát triển.
Một bước thụt lùi như vậy đã xảy ra vào năm ngoái khi việc giới thiệu công cụ AI tổng quát, ban đầu được đặt tên là Bard và sau đó được đổi tên thành Gemini, đã khiến giá cổ phiếu của công ty giảm xuống.
Sự suy giảm này diễn ra sau một video demo giới thiệu quá trình tạo ra các câu trả lời không chính xác về mặt thực tế của công cụ này đối với các câu hỏi về Kính viễn vọng Không gian James Webb.
Gần đây hơn, vào tháng 2, Google đã phải đối mặt với những lời chỉ trích trên mạng xã hội vì mô tả những hình ảnh không chính xác về mặt lịch sử của Song Tử, chủ yếu là hình người da màu thay vì người da trắng.
Đáp lại, công ty đã tạm dừng khả năng tạo ra hình ảnh con người của Gemini.
Giống như các công cụ AI khác như ChatGPT, Gemini rút ra từ các bộ dữ liệu phong phú có sẵn trực tuyến.
Tuy nhiên, các chuyên gia luôn cảnh báo về những hạn chế và cạm bẫy tiềm ẩn liên quan đến công nghệ AI, bao gồm sự thiếu chính xác, sai lệch và phổ biến thông tin sai lệch.
Và với việc đề cập đến sự cạnh tranh, ChatGPT đã nổi lên như một đối thủ đáng gờm trong ngành công nghệ khi phát hành vào cuối năm 2022, làm dấy lên các cuộc thảo luận về mối đe dọa tiềm tàng của nó đối với công cụ tìm kiếm thống trị của Google, nền tảng truy xuất thông tin trực tuyến.
Để đáp lại, Google đã bắt tay vào một hành trình đầy quyết tâm nhằm giành lại vị thế tối cao của mình trong lĩnh vực AI.
Trên một lưu ý tích cực, tại Oppenheimer, nhà phân tích Jason Helfstein đã nói trong một báo cáo:
"So với bản demo sản phẩm giới hạn của OpenAI ngày hôm trước, chúng tôi tin rằng Google đã chứng tỏ được vị thế cạnh tranh mạnh mẽ của mình, được thúc đẩy bởi ngân sách R&D về cơ bản là không giới hạn."
Nhà phân tích Mark Mahaney của Evercore ISI cũng cho biết trong một báo cáo:
"Theo quan điểm của chúng tôi, Google đã thực hiện được I/O năm nay trước sự cường điệu và nghi ngờ ngày càng tăng. Từ I/O này, chúng tôi cũng nhận thấy Google chú trọng hơn đến việc sử dụng AI thế hệ mới để kết nối chặt chẽ hơn các dịch vụ của mình thành một trải nghiệm toàn diện. Và nhấn mạnh vào những cải tiến mới này là 'Chỉ trên Android'."
Tuy nhiên, những gã khổng lồ công nghệ khác đang ở rất gần phía sau.
Tại hội nghị Build bắt đầu vào ngày 20 tháng 5, Microsoft dự kiến sẽ công bố các cải tiến đối với Copilot do AI điều khiển dành cho bộ năng suất Microsoft 365.
Trong khi đó, Apple đang chuẩn bị cho sự kiện WWDC vào ngày 10 tháng 6, nơi hãng có kế hoạch giới thiệu một phiên bản mới của trợ lý giọng nói Siri được hỗ trợ bởi AI tổng hợp.
Khi cuộc chiến giành quyền tối cao về AI ngày càng gay gắt, ai sẽ là người chiến thắng?
Có vẻ như khi người ta phát hành một" đột phá" sự đổi mới, một sự đổi mới khác sẽ bám theo nó.
Vì vậy, chỉ có thời gian mới trả lời được, không rõ ai sẽ là người chiến thắng mà là ai sẽ bị bỏ lại phía sau.