
Googleは、2025 I/O 開発者会議で、新しいテキストベースの画像AIモデルImagen 4を正式に発表しました。生成速度は前世代より 10 倍速く、画像の詳細とテキストのレンダリング機能が大幅に最適化されています。公式デモでは、新モデルで生成された画像は髪の毛や金属光沢などの材質がよりリアルになり、AI合成の痕跡が大幅に減少していることが示されています。例えば、「2025 Google I/O カンファレンス」をテーマにしたポスターでは、テキストと背景要素の融合が自然でスムーズで、多層組版のデザイン能力が実証されています。
このアップグレードの最大のハイライトは、画像へのテキスト埋め込みの正確な制御にあります。 Imagen 4 は、テキストを独立した要素としてシーンに挿入できるだけでなく、セマンティクスに応じてフォント スタイルや光と影の適応を調整することもできます。たとえば、砂漠のシーンの 3D スローガンやネオンサインのグラデーション文字などの複雑な効果を実現できます。これは、AI テキスト画像テクノロジーが「読みやすいプレゼンテーション」から「デザインレベルのアプリケーション」に移行したことを示しており、広告、映画、テレビなどの業界に効率的なツールを提供します。
同時に、Googleは環境音合成機能を初めて統合した動画生成モデルVevo 3もリリースした。画像の内容に基づいて、鳥の鳴き声、交通の音、さらにはキャラクターの会話まで自動的に生成し、臨場感あふれるオーディオビジュアル体験を生み出します。 Vevo 3は現在、米国のGemini UltraユーザーとVertex AIエンタープライズ顧客向けにテスト中です。
注目すべきは、Imagen 4 のパフォーマンス向上はハードウェア スタッキングに依存せず、アルゴリズム アーキテクチャの最適化によって実現されていることです。分散推論エンジンにより、単一生成の時間が数秒に短縮されます。ダイナミック解像度調整機能と組み合わせることで、ユーザーは 1024×1024 ピクセルの高解像度出力とリアルタイムプレビューモードを柔軟に切り替えることができます。マルチモーダル生成テクノロジーが商業化の深海に突入する中、Google はソフトウェアとハードウェアの連携戦略を通じて AI エコシステムの優位性を強化しています。