火曜日にカリフォルニア州マウンテンビューで開催されたGoogle I/O開発者会議で、グーグルはジェミニ・ライブ・アシスタント、AndroidとWorkspacesプラットフォームのアップデート、検索製品の刷新を含む一連の人工知能(AI)製品を発表した。
これらの発表は、2022年にマイクロソフトがOpenAIと驚くべき提携を結んだのに続き、シリコンバレーのAIリーダーとしての地位を取り戻そうとするグーグルの広範な戦略の一環である。
さらにグーグルは、新しいデバイスやAIを搭載したツールによって、中核となる広告事業以外の多角化を目指している。
AIの重要性を強調したグーグルCEOのスンダル・ピチャイは、グーグルのAIプラットフォームであるジェミニが集計したところ、イベント中に120回もAIという言葉が使われたことを指摘した。
OpenAIは最近、最新のAIシステム「GPT4o」を発表し、携帯電話のカメラを通して人間の表情を読み取り、流暢に、さらには媚びるような会話をするような高度な機能を披露した。
グーグルは明らかに、自社のAIツールがこのような「マルチモーダル」な理解にも同様に長けていることを実証しようとしている。
グーグルは、OpenAIの発表の直前に、携帯電話上で動作するAIシステムを戦略的にプレビューした。
Rを見ることができる。Google I/Oカンファレンスからの抜粋はこちら .
グーグル、AIをあなたの行動すべてに取り入れたい
基調講演でグーグルは、AIをユーザーの日常生活に取り入れるというビジョンを示し、AI製品が情報の共有、他者との交流、家の中の物探し、スケジュール作成、買い物、アンドロイド端末の使用などをどのように支援するかを紹介した。
グーグルは、AIがユーザーの行動すべてに不可欠な存在になることを目指している。
ピチャイは、最新のAIモデルであるジェミニ1.5プロを搭載したいくつかの新機能を紹介した。
例えば、娘がいつ水泳を習ったかを特定したり、保存された画像からナンバープレートの番号を思い出したりできる。
Pichai氏はまた、Gemini 1.5 Proが、添付ファイルを分析し、キーポイントとアクションアイテムを抽出することによって、子供の学校からの最近の電子メールを要約できることを紹介した。
Gemini 1.5 Proモデルの2つのバージョンが発表された:Gemini 1.5 Pro Flashは、マルチモーダル機能と1Mトークンのコンテキスト長を備えた、軽量、高速、コスト効率の高いバージョンであり、オリジナルモデルの81.9%に対して78.9%のMMLUを誇る。標準的なGemini 1.5 Proモデルは、2倍の2Mトークンのコンテキスト長を備えています。
この新しいモデルは、APIを通じて一部の開発者向けにウェイティングリストを通じて提供される。
グーグル幹部はプレゼンテーションの中で、最新モデルが教科書を読み、自然な発音で質問に答えるAI講義に変換する能力など、その他の機能を強調した。
AIの概要検索結果の生成に革命を起こす
昨年5月、ピチャイはAIによってすべての製品を再構築するという野心的な計画を発表した。
しかし、虚偽の情報を拡散する可能性など、新しい生成AI技術に伴うリスクを考慮し、グーグルは当初、20億人以上のユーザーにサービスを提供し、昨年1750億ドルの収益を上げた検索エンジンへの統合に慎重だった。
ピチャイはカンファレンスで、同社のAIに関する献身的な取り組みが、検索エンジンにどのように組み込まれたかを発表した。
今週から、米国(US)のユーザーは、Google I/O 2023で発表された新機能、AI Overviews(以前はSGE(Search Generative Experience)として知られていた)を体験することになる。
この機能は、従来の検索結果の上に情報の要約を生成するもので、間もなく世界中のユーザーが利用できるようになる。
年末までには、10億人以上がこの技術にアクセスできるようになると予想されている。
グーグルの検索部門責任者に就任したリズ・リードは、次のように述べている:
「ジェネレイティブAIがもたらすのは、Googleが検索をより多く代行してくれることだ。検索にかかる大変な労力を省いてくれるので、物事を成し遂げたい部分や、探索の中でワクワクするような部分に集中することができます;
では、AIオーバービューはどのように機能するのか?
Google'の新しいエクスペリエンスは、ジェネレーティブAIと検索結果を統合し、生きた情報に基づいてAIが生成した要約と回答を提供する。
ジェミニAIモデルを搭載したこの機能強化により、生成AIが役立つとシステムが判断した場合、多くのクエリに対してAIの概要が表示されます。
これらのAIが生成した要約は、従来の検索結果の上に表示され、ページをさらに下に押し下げる。
通常、AIオーバービューはクエリごとにいくつかの関連リンクを表示するが、それらが完全に表示されるようになるのは、レスポンスを展開した後である。
GoogleはAIオーバービューをナレッジパネルやFeatured Snippetsのような機能と比較しており、完全に無効にすることはできない。
しかし、グーグルは、AIによる回答を回避し、従来のリンクのみを表示するために、検索に"web"フィルターを導入する予定である。
グーグルによるAI検索について懸念されるのは、検索トラフィックに大きく依存するウェブサイトへの影響である。
主な懸念は、AIオーバービューが、グーグル検索からのトラフィック減少に対するウェブパブリッシャーの懸念を強め、他の技術プラットフォームとの対立ですでに緊張している業界内の課題を悪化させる可能性があることだ。
グーグルでは、ユーザーは様々なトピックに関するより長い要約を目にすることになり、外部のウェブサイトを訪問する必要性が減る可能性がある。
この変化によって、ウェブサイトは今後数年間でトラフィックの最大25%を失う可能性があり、検索アルゴリズムによる最近の減少に拍車をかけるという試算もある。
しかしグーグルは、AIオーバービューに含まれるリンクは、従来の検索結果に含まれるリンクよりもクリック数が多いと主張している。
同社は、AIオーバービューがより多くのユーザーに届くように、パブリッシャーやクリエイターにトラフィックを誘導することを強調している。
においてである。最近のブログ記事 リードは、AIオーバービューに掲載されたリンクは、従来の検索結果として表示された場合と比較して、ユーザーからのクリック数が多いことを明らかにした。
とリードは付け加えた:
「私たちは、パブリッシャーやクリエイターに価値あるトラフィックを送ることに引き続き注力していきます。
さらにグーグルは、ラボ参加者を対象に検索でテストする新機能を発表した。
これらの機能には、言語の簡略化、複雑なクエリに対する多段階推論の有効化、計画機能の提供、AIによる検索結果の整理、検索プロンプトの一部としてのビデオの組み込みなど、AI概要を洗練させるオプションが含まれる。
グーグルは、これらの開発はグーグル検索の再構築に向けた取り組みの始まりに過ぎず、さらなる革新が控えていることを示唆している。
あなただけのAIアシスタント:ジェミニ・ライブ
グーグルの最新の発表には、ユーザーとのインタラクションに革命をもたらすパーソナライズされたAIアシスタント、ジェミニ・ライブも含まれている。
Google'の先進的なGemini 1.5 Proモデルを搭載したGemini Liveは、ユーザーが音声コマンドを通じてチャットボットと関わる能力を提供し、応答は自然な音声で提供される。
このチャットボットの特徴は、ユーザーが会話の途中で中断したり、明確な質問をしたりすることを可能にする適応性にある。
グーグルのGeminiエクスペリエンス担当バイス・プレジデントであるアマール・スブラマンニャ氏は、Yahoo Financeとのインタビューの中で、Gemini Liveの変革の可能性についての洞察を語った。
スブラマンヤは、ブレーンストーミングセッションやアイデアの交換にジェミニ・ライブを個人的に活用していることを明かし、クリエイティブなプロセスを支援するアシスタントの多用途性を示した。
また、初期のテスターはGemini Liveの機能を検討し、翻訳などのタスクに活用し、有望な結果を得ている。
将来的には、GoogleはGemini Liveにカメラアクセスを統合し、アシスタントが現実世界の環境やオブジェクトと対話できるようにする計画だ。
スブラマンニャは、アシスタントに15人分のパイナップルのアップサイドダウンケーキのレシピを調達し、その材料を自分のキープショッピングリストにシームレスに追加するよう依頼したシナリオを語った。
助手は8人分のレシピを手際よく調整し、それに合わせて分量を調整し、スブラマンヤの都合に合わせて必要なものを効率よくまとめた。
さらにアンドロイドの面では、グーグルはそのアシスタントの範囲をグーグルメッセージやGメールなどの人気アプリにまで広げ、ジェミニが生成した画像をメッセージに挿入するなどのタスクを可能にすることで、ユーザーの生産性を高めている。
グーグルのジェミニ・ナノは、会話中に詐欺師を識別する能力を誇っている。
この機能は、不正行為によく関連する特定の会話パターンを検出することで作動する。
驚くべきことに、詐欺の検出処理はすべてお使いのデバイス上でローカルに行われるため、会話はウェブにアップロードされることなく携帯電話内にとどまり、プライバシーが確保される。
Google's DeepMind AI Lab'のProject Astra。
グーグルは、ディープマインドAI研究所のプロジェクト「アストラ」を短期間公開した。
この試みは、物体を識別し、置き忘れた品物を見つけることさえ約束し、将来の拡張現実メガネとの統合を示唆している。
ディープマインド社のデミス・ハサビス最高経営責任者、ブログ記事 プロジェクト・アストラの一部の機能は、今年中にジェミニ・チャットボットのユーザーが利用できるようになる。
Geminiを搭載したこのプロジェクトは、オーディオ、テキスト、ビデオ、画像の各フォーマットをリアルタイムでサポートする。
プロトタイプとして発表されたにもかかわらず、Astraの可能性は事前に録画されたビデオを通じて紹介された。
初期のテスターは、GPT4oと比較して待ち時間が長く、感情的知性とトーンに制限を感じると指摘した。
しかし、Astraは強力な音声合成機能を備えており、継続的なビデオやロングコンテキストのインタラクションに優れた対応力を発揮する可能性がある。
VeoはOpenAIのSora対抗馬
Veoは、OpenAIのSoraシステムのように、簡単なテキスト入力から高解像度のビデオを生成するように設計された最新のAIモデルである。
#グーグル グーグル上級副社長のジェームス・マニカは、AIを活用する可能性が高まっていると語る。同社はGoogle I/O 2024カンファレンスで、最も先進的な動画生成モデルとしてVeoを発表した。グーグルアシュミット・テジ・クマール#グーグルIO#AI#ヴェオpic.twitter.com/2WcOS1YDNN
- CNBC-TV18 (@CNBCTV18News)2024年5月15日
a
このテクノロジーは、ビデオ生成機能の大幅な進歩を意味し、クリエイターにVeoをプレビューし、アクセス待ちリストに参加する能力を約束します。
グーグルは今年後半、Veo'の機能をYouTube Shortsやその他のプラットフォームに統合する予定であり、期待が高まっている。
グーグル・ディープマインドが開発したVeoは、印象的な機能を誇っている:
-1080pの驚異的な解像度でビデオを配信。
-動画は1分を超えることも可能で、コンテンツ作成に柔軟性がある。
-Veoは、様々な好みに合うように、多様な映画的、映像的スタイルを提供する。
この多機能なモデルは、テキストプロンプトに基づいて画像をアニメーション化したり、ビデオを編集することができます。
GoogleはVeo'のトレーニングデータを強化し、ビデオキャプションの詳細を追加しました。
さらにVeoは、レイテントと呼ばれるビデオの圧縮表現を活用して、パフォーマンス、生成速度、効率を向上させています。
グーグル、その他のAI機能を多数発表
2時間のセッションは、検索、ワークスペース、写真、アンドロイドなど、グーグルのエコシステムにまたがる豊富な製品アップデートと発表であふれた。
特に、最先端の画像生成モデルであるImagen 3は、迅速なスケッチから高解像度画像の生成まで、さまざまなタスクに合わせた複数の反復モデルで間もなくデビューする。
また、Gemmaファミリーに新たに加わったGemma 2とPaliGemmaは、オープンソース・モデルにおいて大きな進歩を遂げた。
PaliGemmaは、Google'の最初のビジョン言語オープンソースモデルで、現在利用可能である。
さらに、グーグルの音楽生成ツールであるLyriaが発表され、革新的な製品に新たな一面が加わった。
15以上のプロジェクト発表と製品発表が行われたこのイベントは、さまざまな領域でテクノロジーを進化させるというグーグルのコミットメントを強調するものだ。
グーグルのAI覇権への道は障害とライバルに満ちている
Emarketerのアナリスト、ジェイコブ・ボーンの目には、今年のグーグル開発者会議でAIにスポットライトが当てられていることは驚きではないように映る。
彼は言った:
「グーグルは、その最新モデルと、それが消費者に強い影響力を持つ既存製品にどのようなパワーを与えるかを紹介することで、ライバルといかに効果的に差別化できるかを示している;
彼は、これらの新しいツールの評判を、Google'が進化するジェネレーティブAIの状況に検索製品を適応させる能力のリトマス試験紙と見ている。
彼はこう付け加えた:
「競争力を維持し、投資家を満足させるために、グーグルはAIのイノベーションをスケールの大きな収益性の高い製品やサービスに変換することに集中する必要がある。
同社はAIへの取り組みを拡大するにつれ、悪用される可能性を軽減するためにさらなる安全策を導入することを約束する。
さらにグーグルは、専門家や機関との提携を通じて、新しいモデルの能力を向上させるというコミットメントを強調している。
しかし、グーグルはこの1年でAIへの注力を強める一方で、その過程で顕著なハードルにぶつかっている。
そのような後退のひとつは、昨年、当初「バード」と名付けられ、後に「ジェミニ」と改名された同社のジェネレーティブAIツールの導入が、同社の株価下落につながったことだ。
これは、ジェイムズ・ウェッブ宇宙望遠鏡に関する問い合わせに対して、このツールが事実と異なる回答をするデモビデオに続くものである。
最近では、2月にグーグルは、ジェミニが歴史的に不正確なイメージを描写し、白人の代わりに有色人種を主に登場させているとして、ソーシャルメディア上で批判に直面した。
これを受けて、同社はジェミニの人物画像生成機能を停止した。
ChatGPTのような他のAIツールと同様に、Geminiはオンラインで入手可能な広範なデータセットを利用している。
しかし、専門家は一貫して、不正確さ、偏見、誤った情報の流布など、AI技術に関連する限界や潜在的な落とし穴に注意を促してきた。
ChatGPTは、2022年後半にリリースされるや否や、技術業界において強力なライバルとして登場し、オンライン情報検索のプラットフォームとして圧倒的なシェアを誇るグーグルの検索エンジンを脅かす可能性があるという議論を巻き起こした。
これを受けてグーグルは、AIの領域で覇権を取り戻すべく決死の旅に出た。
オッペンハイマー社のアナリスト、ジェイソン・ヘルフスタイン氏はリポートで次のように語っている:
前日のOpenAIの限定的な製品デモに比べ、グーグルは実質的に無制限の研究開発予算によって強力な競争力を示したと我々は考えている;
エバーコアISIのアナリスト、マーク・マハネイもリポートでこう述べている:
quot;我々の見解では、グーグルは今年のI/Oで、高まる誇大広告と疑念に対して成果を上げた。今回のI/Oでは、グーグルがAIを活用してサービスをより緊密に結びつけ、総合的な体験を提供することに重点を置いていることがわかった。そして、これらの新機軸は「Androidだけ」であることを強調している;
しかし、他のハイテク大手はそのすぐ後ろに迫っている。
5月20日から開催されるBuildカンファレンスで、マイクロソフトはAIを活用したMicrosoft 365生産性スイート向けCopilotの機能強化を発表する見込みだ。
一方、アップルは6月10日に開催されるWWDCに向けて準備を進めており、ジェネレーティブAIを搭載した音声アシスタント「Siri」の新型を発表する予定だ。
AIの覇権争いが激化する中、勝利を手にするのは誰か?
画期的な技術革新が発表されると、そのすぐ後に別の技術革新が追いついてくる。
つまり、誰が勝者になるかというより、誰が取り残されるかは、時間が経ってみなければわからないということだ。