Metaが高解像度動画生成モデル「Movie Gen」を発表！　なんと最大16秒の動画生成が可能に

記事

IT・テクノロジー

Meta社は、テキストから高解像度の動画を生成できる新しいモデル「Movie Gen」を発表しました。

このモデルは、音声付きで脅威の最大16秒の動画を作り出すことができます。

興味深いのは、テキストや画像、動画、音声を入力として受け取り、マルチモーダル対応で動画を生成できる点です。

さらに、既存の動画編集機能も備えているため、ユーザーは既にある動画を編集することも可能です。

「Movie Gen」は、テキストプロンプトを入力することで、その内容に基づいた動画を生成します。

例えば、「ピンクのジャケットを着た女性DJがチーターと一緒にレコードを回している」というテキストから、指定された人物を元にした動画を生成することができます。

また、物体同士の相互作用やカメラ動作の推論を通じて、現実的な動きの再現を目指しています。

このモデルは、音楽生成機能も持っており、最大45秒の高品質なシーンに合った音楽を生成できます。

他の類似モデルと比較しても、Metaの「Movie Gen」はそのパフォーマンスで一際目立っています。

特に、Runwayの「Gen-3」や、Luma Labsの「Dream Machine」、OpenAIの「Sora」を上回る性能を示していると言われています。

しかし、Meta社もこのモデルの限界については認識しており、今後は映画製作者やクリエイターと連携してフィードバックを基に改善を進めていく方針です。

プログラマーとしての感想を付け加えるなら、このような技術の進歩には驚かされましたが、実際にモデルを実用化する際には細かい調整が必要だと感じます。

特に、実際の使用環境での柔軟性やカスタマイズ性に注目しながら、更なる改善が期待されます。

阿修羅ワークスの出品リスト

阿修羅ワークスのプロフィール