こんにちは。アイです。
本資料は、Stable DiffusionとLoRAを使用して、顔を固定しつつ髪型や服装、表情、背景などを自由自在に変えられるようになろうというものです。
アニメ系や実写系の両方に対して使える手法です。主にキャラクターや人物の表現の幅を広げることに使えるかと思います。
【注意事項など】
※本資料は主にStable Diffusionの上級者向けの資料となっています。初心者の方は理解が難しいかもしれません。
※人物及びキャラクターの規約にもよりますが、原則、二次創作物の公表や学習について、それぞれ著作権者から許諾を得る必要があります。記事で紹介する手法を試す場合は許諾を得てください。
※著作権者等にとって不利益となる利用をしないでください。
※著作権者等の許可なく学習済みモデルを第三者に提供するのはやめましょう。
※本資料で紹介する内容によって生じた損害などに対して、私は一切の責任を持ちません。自己責任、自己判断でお願いします
使用スペック(3種類試しました)
パターン1:CPU-12th Intel i7, GPU-RTX 4080, メモリ-32GB
パターン2:CPU-13th Intel 9, GPU-RTX 4090, メモリ-64GB
FLUXの学習であればローカル環境で16GB以上のGPUを積んでいないと基本的に学習はできません。(12GBでも問題ないかもしれませんが、保証しません)GPUメモリが多いRTX4090は1300ステップで2時間程度でした。VRAMが24GB未満のGPUの場合、通常おおよそ2倍の時間がかかります。
使用するツール
今回使用するのはKohya's GUIというツールです。
github.com/bmaltais/kohya_ss
学習~生成までの全体の簡単な流れ
1. Kohya GUIを導入する
2. 学習用画像を用意して、後述するフォルダに格納する
3. Stable Diffusionの拡張機能で学習用画像にタグ付けをする
4. Kohya GUIにパラメーターを入力してLoRAを生成
5. Stable Diffusionに4で生成したLoRAを読み込ませて画像生成
6. トライアンドエラー
本記事ではStable Diffusion及びKohya GUIを導入済みであることを前提としていますので、それぞれの導入手順については割愛させていただきます。
上記2~5の各ポイントについて説明していきます。
2. 学習用画像のポイント
LoRAのクオリティは学習用画像に大きく依存します。最も大事な要素ですので、特に人物を生成する場合は、以下のポイントに従うと良いです。全てを満
たすことは難しいとは思いますので、可能な限り従いましょう。