
2025年のGoogle I/O開発者会議で、新世代のビデオ生成モデルVeo3が正式に発表され、AIによる背景効果音と画像の同時生成が初めて実現されました。このモデルは、テキストプロンプトに基づいて動的なシーンを合成できるだけでなく、鳥の鳴き声や交通などの環境音と画像を一致させたり、会話中の登場人物の正確な唇の動きを生成したりすることもできます。以前の世代の製品と比較して、Veo3 は物理シミュレーションとリップ シンク技術において大きな進歩を遂げました。生成される 1080P の高解像度ビデオは 60 秒以上の長さになる可能性があり、「航空写真」や「タイム ラプス写真」などの映画やテレビの専門用語を理解することができます。
現在、Veo3 は米国の Gemini Ultra 加入者と Vertex AI 法人顧客に公開されており、Google の映画およびテレビ番組制作プラットフォーム Flow に統合されています。 Flow ツールを使用すると、クリエイターは人物やシーンの写真を参照としてアップロードし、レンズ コントロール機能を使用して回転、ズーム、水平画面と垂直画面の切り替え、さらにはビデオ要素の動的な追加や削除を行うことができます。同時に、前世代の Veo2 の基本機能はすべてのユーザーに公開されており、画像の参照やレンズ調整などの創造的な自由が保持されています。
AIコンテンツ認識における深刻化する問題に対応して、GoogleはSynthID Detector検出ツールを同時にリリースしました。ユーザーはファイルをアップロードする際に、暗号化された透かしが含まれているかどうかを識別できます。このテクノロジはいくつかの世代のモデルに適用されていますが、まだ完全なプラットフォーム カバレッジは達成されていません。 Veo3の発売により、AIビデオ生成分野におけるGoogleの技術的優位性はさらに拡大し、RunwayやOpenAIなどの企業との競争は新たな段階に入った。