リリック・ビデオ生成システムの開発

記事

写真・動画

私はStable Diffusionが好きでいろいろ画像生成をしております。

純粋に生成画像品質が高いですし、プロンプトのちょっとした変更で大きくテイストを変化させられることにとても大きな面白みを感じております。

さて、最近Loudme.aiという音楽生成サービスのサブスクを契約しました。

こちらは画像でなく音楽ですが、完成度・品質が高い作品をバンバン生成してくれるものです。

Stable Diffusionで画像生成出来る・・・Loudme.aiで音楽生成出来るようになった・・・

そんな役者がそろってきましたので、Stable Diffusionで生成した写真を持って、Loudmeに作曲させ、そのリリック・ビデオを作りたくなってしまいました。

その方法としてymm4（ゆっくりムービーメーカー）を作って数本作ってみたのです。

ところが、なかなかに時間がかかってしまい、何かプログラムでそれらをもっと効率的に実現出来ないか？をこの週末考え、本日夕方システムを完成させました。

リリック・ビデオ生成システムです。

まずは画像を１枚用意します。これはStable Diffusionで生成します。

次に音源を生成します。これはLoudmeでします。また、Loudmeは作詞もしてくれますので、その作詞をテキストファイルにコピペしておきます。

そして、音楽を何かで再生しながら、歌（フレーズ）の開始時間と終了時間を確認し、次のようなエクセルファイルを作成します。

この工程はそこそこ時間はかかります。

例えば、Chrorus部分の　彼女を愛してる　心の底から　の部分のフレーズは音源では42秒501ミリ秒から始まり、48秒300ミリ秒で終了という意味です。

これで準備完了です。

後は自作のリリック・ビデオ生成システムを実行させれば、約５分程度でリリック・ビデオが完成します。

私は音楽が好きで良い音楽であればジャンルを問わず好きな人間です。

せっかくのAIシステムの登場と無制限に作り出せる作品。

それらをさらに活用して楽しみたいと考えています。

こんな、世の中に存在しないシステム開発も出来ますので、何かシステム化・IT化したい仕組みをお考えでしたら是非お気軽にお問合せください。