
最近、GoogleはGemini人工知能アシスタント向けにVeo 3モデルに基づく画像から動画への機能を正式にリリースしました。ユーザーは静止画をアップロードし、テキストによる説明を追加するだけで、サウンド効果付きの 8 秒間のダイナミックなショート ビデオを生成できます。この機能は現在、AI Ultra および AI Pro サブスクライバーが利用できます。最初のフェーズは Gemini ウェブ バージョンで利用可能になり、モバイル アプリケーションは今週中に完全にリリースされる予定です。
操作プロセスは非常に簡単です。ユーザーはプロンプトバーの「ツール」をクリックし、「ビデオ」エントリを選択します。写真をアップロードした後、ユーザーは「波が岩にぶつかる」や「人が頭を回して笑う」など、テキストの指示を使用してダイナミック効果を説明します。革新的な点は、3 層のオーディオ同期をサポートしていることです。バックグラウンド ミュージック (雨など)、環境を強化するサウンド効果 (葉のざわめきなど)、さらにはキャラクターのセリフも追加できます。このシステムは、Veo 3 独自の波形マッチング技術を使用して、唇の動きと音声の正確な同期を保証します。最終出力は、解像度 720p、横画面 16:9 の MP4 形式のビデオで、目に見える AI 透かしと隠しデジタル ロゴが自動的に追加されます。
このアップグレードは、AI ビデオ分野における Google にとって重要な進歩となります。 Veo 3 モデルは、フレーム間モーション予測アルゴリズムを使用して、生成された画像の物理的なリアリズムを大幅に向上させ、Gemini が OpenAI や Runway などのライバルと競争できる映画およびテレビ番組の制作機能を実現できるようにしました。注目すべきは、この機能が Gemini インタラクティブ インターフェースに直接統合されており、独立したツール フローを通じて操作する必要があった以前のモードと比較して、作成のハードルが大幅に下がっていることです。