本周二,在加利福尼亚州山景城举行的谷歌 I/O 开发者大会上,谷歌发布了一系列人工智能(AI)产品,包括 Gemini Live 助手、安卓(Android)平台和工作空间(Workspaces)平台更新以及改版后的搜索产品。
继微软(Microsoft')在2022年出人意料地与OpenAI建立合作关系之后,谷歌(Google')为重新夺回硅谷人工智能领导者的地位而采取了更广泛的战略。
此外,谷歌还希望通过新设备和人工智能工具,实现核心广告业务之外的多元化发展。
谷歌首席执行官桑达尔-皮查伊(Sundar Pichai)强调了人工智能的重要性,他指出,根据谷歌人工智能平台 "双子座"(Gemini)的统计,"人工智能"(AI"AI")一词在活动中被提及了120次。
在这一系列更新之前,OpenAI'最近发布了其最新的人工智能系统GPT4o,该系统展示了通过手机摄像头读取人类表情并进行流畅甚至调情对话等先进功能。
谷歌显然想证明,它的人工智能工具同样精通这种多模态理解。
在OpenAI'宣布之前,谷歌战略性地预览了其在手机上运行的人工智能系统,这清楚地表明了谷歌的竞争"心态,即你能做的,我都能做得更好"。
您可以观看点击此处观看 Google I/O 大会的精彩片段 .
谷歌希望人工智能成为您工作的一部分
在主题演讲中,谷歌展示了其将人工智能融入用户日常生活的愿景,展示了其人工智能产品如何帮助用户分享信息、与他人互动、寻找家中物品、制定日程安排、购物和使用安卓设备。
谷歌的目标是让人工智能成为用户一切活动中不可或缺的一部分。
皮查伊介绍了由最新人工智能模型 Gemini 1.5 Pro 支持的几项新功能。
其中一项引人注目的功能名为 "询问照片",用户可以搜索照片库中的特定内容,例如确定女儿学会游泳的时间,或从保存的图片中回忆起自己的车牌号码。
Pichai 还展示了 Gemini 1.5 Pro 如何通过分析附件、提取要点和行动项目来总结孩子们最近从学校发来的电子邮件。
Gemini 1.5 Pro 型号有两个版本:Gemini 1.5 Pro Flash 是一种轻便、快速、高性价比的迭代产品,具有多模态功能和 1M 标记上下文长度,其 MMLU 为 78.9%,而原始型号的 MMLU 为 81.9%。标准 Gemini 1.5 Pro 型号的上下文长度增加了一倍,达到 200 万个令牌。
这种新模式通过应用程序接口(API)向特定开发人员提供。
在整个演示过程中,谷歌高管还强调了其他功能,例如最新型号'能够"阅读"教科书,并将其转化为人工智能讲座,其中的老师声音自然,可以回答问题。
人工智能概述:彻底改变搜索结果的生成
去年 5 月,皮查伊宣布了一项雄心勃勃的计划,即通过人工智能重新构想公司的所有产品。
不过,考虑到新的生成式人工智能技术的相关风险,如传播虚假信息的可能性,谷歌最初对将其整合到其搜索引擎中持谨慎态度,而该搜索引擎去年为 20 多亿用户提供服务,创造了 1750 亿美元的收入。
在会议上,皮查伊公布了公司如何将人工智能方面的专项工作融入到搜索引擎中。
从本周开始,美国用户将体验到谷歌 I/O 2023 大会上宣布的一项新功能--人工智能概览(AI Overviews),该功能之前被称为 "搜索生成体验"(Search Generative Experience,SGE)。
该功能可在传统搜索结果上方生成信息摘要,不久将向全球用户提供。
到今年年底,预计将有超过 10 亿人使用这项技术。
谷歌新上任的搜索部门主管莉兹-里德(Liz Reid)说:
"我们从生成式人工智能中看到的是,谷歌可以为你做更多的搜索工作。它可以为你分担搜索过程中的大量繁重工作,这样你就可以专注于你想做的事情,或者你觉得令人兴奋的探索部分;
那么,人工智能概述是如何工作的呢?
谷歌的新体验将生成式人工智能与搜索结果整合在一起,根据实时信息提供人工智能生成的摘要和答案。
在双子座人工智能模型的支持下,当系统识别到生成式人工智能可能有帮助时,该增强功能将为许多查询提供人工智能概述。
这些人工智能生成的摘要将出现在传统搜索结果的上方,将它们推到页面的更下方。
通常情况下,人工智能概述会在每个查询中显示几个相关链接,但只有在扩展回复后才能完全看到这些链接。
谷歌将人工智能概述与知识面板或精选片段等功能进行了比较,它们不能被完全禁用。
不过,谷歌将在搜索中引入一个"web"过滤器,绕过人工智能响应,只显示传统链接。
谷歌人工智能增强搜索的一个主要问题是其对严重依赖搜索流量的网站的影响。
一个主要的担忧是,人工智能概述可能会加剧网络出版商对谷歌搜索流量减少的担忧,从而加剧这个本已因与其他技术平台的冲突而捉襟见肘的行业所面临的挑战。
在谷歌上,用户会看到关于各种主题的较长摘要,从而有可能减少访问外部网站的需要。
据估计,由于这一变化,网站在未来几年内可能会损失多达 25% 的流量,使最近因搜索算法而造成的流量下降雪上加霜。
不过,谷歌声称,人工智能概述中的链接比传统搜索结果中的链接获得更多点击。
该公司强调,随着人工智能概述接触到更多用户,它将致力于把流量导向出版商和创作者。
在一个最新博文 里德发现,与传统搜索结果相比,人工智能概述中的链接获得了用户更多的点击。
里德补充道:
"我们将继续专注于为出版商和创作者输送有价值的流量"。
此外,谷歌还宣布将在搜索实验室参与者中测试新功能。
这些功能包括通过简化语言完善人工智能概述的选项、实现复杂查询的多步推理、提供规划功能、用人工智能组织搜索结果以及将视频作为搜索提示的一部分。
谷歌暗示,这些发展只是其重新构想谷歌搜索的开始,更多的创新即将到来。
您的个性化人工智能助理:双子座 Live
谷歌最新发布的产品还包括Gemini Live,这是一款个性化人工智能助手,有望彻底改变用户交互方式。
Gemini Live由谷歌先进的Gemini 1.5 Pro模型提供支持,用户可以通过语音命令与聊天机器人互动,聊天机器人会以自然的声音做出回应。
聊天机器人的与众不同之处在于它的适应性,允许用户在对话中途打断并提出澄清性问题。
谷歌负责双子座体验的工程副总裁阿马尔-苏布拉马尼亚(Amar Subramanya)在接受雅虎财经采访时分享了对双子座直播变革潜力的见解。
Subramanya 透露了他个人使用 Gemini Live 进行头脑风暴会议和创意交流的情况,展示了该助手在协助创意过程中的多功能性。
早期的测试人员也探索了 Gemini Live'的功能,利用它来完成翻译等任务,并取得了可喜的成果。
展望未来,谷歌计划将摄像头接入集成到 Gemini Live 中,使助手能够与现实世界的环境和物体进行互动--这让人想起 OpenAI'GPT4o 演示的功能。
Subramanya 讲述了这样一个场景:他让助理为 15 人的聚会采购菠萝倒扣蛋糕食谱,并将食材无缝添加到 Keep 购物清单中。
这位助手熟练地调整了供八个人食用的食谱,相应地调整了比例,并高效地为 Subramanya'} 整理了所需的物品,以方便 Subramanya'} 使用。
此外,在安卓系统方面,谷歌正在将其助手的功能扩展到谷歌信息和Gmail等流行应用,通过在信息中插入Gemini生成的图片等任务来提高用户的工作效率。
谷歌的 "双子座纳米"(Gemini Nano)手机可以在通话过程中识别潜在的电话诈骗者。
该功能通过检测通常与欺诈活动有关的特定对话模式来运行。
值得注意的是,所有诈骗检测处理都是在本地设备上进行的,确保了隐私,因为对话内容仅限于手机,不会上传到网络。
谷歌 DeepMind 人工智能实验室的 Astra 项目
谷歌简短地公布了其 DeepMind 人工智能实验室开发的 Project Astra 项目,该项目准备利用手机摄像头解读现实世界的信息,从而彻底改变日常生活。
这项工作有望识别物体,甚至找到放错位置的物品,这也暗示了未来与增强现实眼镜的整合。
DeepMind 首席执行官 Demis Hassabis、博文中详细介绍 今年,"双子座 "聊天机器人用户将可以使用 Project Astra 的部分功能。
该项目由 Gemini 支持,提供音频、文本、视频和图像格式的实时支持。
Astra'尽管是作为原型展示的,但它的潜力是通过预先录制的视频展示的,因为它仍然不向所有用户开放。
早期测试者注意到,与 GPT4o 相比,它的潜伏期更长,在情商和音调方面也有明显的局限性。
不过,Astra 具有强大的文本到语音功能,对持续视频和长文本交互的支持可能更胜一筹。
Veo 是 OpenAI'Sora 的竞争对手
谷歌的下一个目标是Veo,这是其最新的人工智能模型,旨在通过简单的文本输入制作高清视频,类似于OpenAI'Sora系统。
#谷歌 谷歌高级副总裁詹姆斯-曼尼卡(James Manyika)在谈到使用人工智能技术的可能性越来越大时表示,创作者可以使用人工智能模型Veo。该公司在 2024 年谷歌 I/O 大会上发布了最先进的视频生成模型 Veo。@谷歌@AshmitTejKumar#GoogleIO#人工智能#Veopic.twitter.com/2WcOS1YDNN
- CNBC-TV18 (@CNBCTV18News)2024 年 5 月 15 日
a
这项技术标志着视频生成能力的重大进步,使创作者能够预览 Veo 并加入等待访问名单。
谷歌计划在今年晚些时候将Veo'功能整合到YouTube短片和其他平台中,这让人们更加期待。
由谷歌 DeepMind 开发的 Veo 功能令人印象深刻:
-它能以令人惊叹的 1080p 分辨率播放视频。
-视频可长达一分钟以上,为内容创作提供了灵活性。
-Veo 提供多种多样的电影和视觉风格,以满足不同的偏好。
这款多功能机型可根据文字提示制作图像动画或编辑视频,并支持遮罩式编辑,可在视频中进行有针对性的修改。
谷歌通过提供更多细节来丰富视频字幕,从而增强了 Veo' 的培训数据。
此外,Veo 还利用视频的压缩表示(称为潜像)来提高性能、生成速度和效率。
谷歌发布一系列其他人工智能功能
在长达 2 个小时的会议中,谷歌生态系统发布了大量产品更新和公告,展示了搜索、工作空间、照片、Android 等方面的增强功能。
值得注意的是,Imagen 3 是他们最先进的图像生成模型,即将推出多个迭代版本,适合从快速素描到生成高分辨率图像等不同任务。
此外,Gemma 2 和 PaliGemma 也是 Gemma 家族的两个新成员,标志着开源模型取得了重大进展。
谷歌首款视觉语言开源模型 PaliGemma 现已推出,而拥有 270 亿个参数的 Gemma 2 则超越了其前身,将于 6 月份推出。
此外,谷歌音乐生成工具Lyria的推出也为其创新产品增添了新的色彩。
此次活动发布了超过 15 个项目和产品,彰显了谷歌致力于推动各领域技术发展的决心。
谷歌通往人工智能主导地位的道路上充满路障和竞争对手
在 Emarketer 的分析师雅各布-伯恩(Jacob Bourne)看来,今年谷歌开发者大会对人工智能的关注并不令人意外。
他说:
"通过展示其最新机型,以及这些机型如何为现有产品提供强大的消费者影响力,谷歌展示了如何有效地与竞争对手区分开来;
他认为,对这些新工具的接受程度是检验谷歌是否有能力使其搜索产品适应不断变化的人工智能生成环境的试金石。
他补充道:
"为了保持竞争优势并满足投资者的需求,谷歌需要专注于将其人工智能创新成果大规模转化为可盈利的产品和服务"。
随着公司在人工智能方面的努力不断扩大,它承诺将实施更多的保障措施,以减少潜在的滥用。
此外,谷歌还强调其致力于通过与专家和机构合作来完善新模式的能力。
然而,尽管谷歌在过去一年里加强了对人工智能的关注,但在前进的道路上也遇到了明显的障碍。
去年,该公司推出的生成式人工智能工具(最初名为 "巴德",后更名为 "双子座")就遭遇了这样的挫折,导致公司股价下跌。
在这一声明之前,有一段演示视频展示了该工具在回答有关詹姆斯-韦伯太空望远镜的询问时所做出的与事实不符的回答。
最近,今年 2 月,谷歌在社交媒体上遭到批评,原因是《双子座》描述的图片与历史不符,主要是有色人种而非白人。
作为回应,公司停止了 "双子座 "生成人物图像的功能。
与 ChatGPT 等其他人工智能工具一样,Gemini 也从网上广泛的数据集中获取信息。
然而,专家们一直告诫人们要警惕人工智能技术的局限性和潜在隐患,包括不准确性、偏见和错误信息的传播。
提到竞争对手,ChatGPT 在 2022 年底发布时就成为科技行业的有力竞争者,引发了关于它对谷歌搜索引擎(在线信息检索的首选平台)的潜在威胁的讨论。
为此,谷歌坚定地踏上了夺回人工智能领域霸主地位的征程。
奥本海默公司(Oppenheimer)的分析师杰森-赫尔夫斯坦(Jason Helfstein)在一份报告中对此持肯定态度:
"相对于 OpenAI' 前一天有限的产品演示,我们认为谷歌展示了其强大的竞争地位,这主要得益于无限的研发预算";
Evercore ISI 分析师 Mark Mahaney 也在一份报告中说:
"在我们看来,谷歌在今年的I/O大会上不畏炒作和质疑,交出了一份满意的答卷。在这次 I/O 大会上,我们还注意到谷歌更加强调利用人工智能技术将其服务更紧密地连接到一个整体体验中。此外,谷歌还强调这些新的创新只能在安卓系统上实现;
不过,其他科技巨头也紧随其后。
在 5 月 20 日开始举行的 Build 大会上,微软预计将公布其人工智能驱动的 Microsoft 365 生产力套件 Copilot 的增强功能。
与此同时,苹果公司正在为 6 月 10 日的 WWDC 大会做准备,计划在会上推出由生成式人工智能驱动的新版 Siri 语音助手。
人工智能争霸战愈演愈烈,谁将取得胜利?
似乎只要有一家公司发布了突破性创新,另一家公司就会紧随其后。
因此,只有时间才能证明,不是谁将成为赢家,而是谁将被甩在后面。