VideoPoetとは?
Googleは現地時間の12月19日、大規模言語モデル「VideoPoet」を発表しました。
VideoPoetは、テキスト入力や画像から高品質な動画を生成したり、生成した動画に音源を挿入したりできるのが特徴。シンプルなテキストから複雑なビジュアルシーンまで動画にできることから注目されています。[1]
また、短い指示文から長編の映像まで、幅広い用途に応じた動画の生成が可能です。
VideoPoetで動画を生成できる仕組み
VideoPoetは、複数のトークナイザー(データ変換ツール)を使用して、テキスト、画像、動画、音声などの異なる形式のメディアを統一的に扱えるようにする技術です。
Google Researchより
具体的には、「MAGVIT V2」というトークナイザーを画像や動画に使用し、一方で音声には「SoundStream」というトークナイザーを使用します。
これらのツールは、入力されたメディア(画像、動画、音声)を特定のコードのシーケンス(一連の単位)に変換することで、異なるタイプのメディアを同じ形式のデータとして処理できるようにします。
この変換のおかげで、テキストベースの言語モデルが動画や音声のデータを理解して処理できます。
VideoPoetでできること
視覚的なストーリーテリング
VideoPoetは、さまざまな短いクリップを使用して視覚的な物語を伝えるショートムービーを作成する機能も備えています。
本機能の例としてGoogle Research[1]では、旅するアライグマに関する短編小説をテーマにした一連のビデオクリップを生成しています。
上記動画の作成手順は下記の通りです。
- 物語についての詳細なテキストプロンプトを作成
- それぞれのプロンプトに基づいて個別のビデオクリップを作成
- これらのクリップを組み合わせて完成
このように、自分だけの物語をビジュアル形式で表現し、視聴者に新たな体験を提供できます。
多様な映像生成
VideoPoetは、テキストや画像からビデオを作ったり、ビデオのスタイル変更や編集をしたりとさまざまな映像タスクに対応しています。これにより、ユーザーはクリエイティブなアイデアを実現し、独自のビデオコンテンツを作成できます。
柔軟な動画編集を実現
VideoPoetを使うことで動画の内容を延長したり、異なるスタイルやエフェクトを適用したりして動画編集できます。
動画の外観をカスタマイズできるので、個々のプロジェクトに合った動画を作成可能。動画作成における創造性と柔軟性を高める機能を備えています。
ゼロショットのスタイル化とカメラモーション
プロンプトを使用して動画のスタイルを変更できます。
Google Researchより
例えば、シンプルなウォンバットの動画を、晴れたビーチでビーチボールを持ったサングラスをかけたウォンバットへ変更できます。
この機能により、ビデオの雰囲気や外観を変更して異なる視覚的印象を作り出せます。ほかにも、カメラモーションの種類を指定することでビデオの動きをコントロールし、より洗練された映像表現を実現できます。
VideoPoetのまとめと今後の考察
VideoPoetでテキストや画像を動画にできるため、動画制作にかかるコストを大幅に削減できる可能性があります。プロンプトによって動画を生成できるため、プロンプトエンジニアリングを活かした動画クリエイターも出てきそうですね。
その一方で、著作権やプライバシーに関する課題が生じる可能性もあるため、今後は適切な規制やガイドラインの策定が重要です。
また、AIの規制問題だけでなく、ユーザー自身が責任を持ってテクノロジーを使用することが求められるでしょう。このように、VideoPoetは多大な可能性を秘めている一方で、その利用には慎重な対応が必要です。
References
- ^ Google Research. 「Video Poet」. https://sites.research.google/videopoet/, (参照 2023-12-21).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
- 3Dモデルを生成できるGPT「Tripo3D」を使ってみた。
- 【Python】タプルの基本操作!値の取り出しやスライス、ループの利用法を解説
- プロンプトを共有できる便利サイト「プロンプト研究所」の使い方を徹底解説
- 【SNSで話題】AIでアバターを生成できる「HeyGen」の使い方と料金形態をくわしく解説
- 社内DXは重要?実施が難しい理由やその必要性を解説。社内DXに重要なポイントも紹介。