ChatGPT 4oの画像生成能力の飛躍的な向上。
とかいう平文では説明しきれない進化がやばいです。
今まではDiffusionモデルと呼ばれる仕組みで動く画像生成AIが一番綺麗な画像を出すはずでした。
MidjourneyやIdeogramもそうです。
でもChatGPT 4oはDiffusionモデルでは無さそうです。
画像生成AIには3つのタイプがある
当然このイラストもChatGPTが描きました。
文字がちょっと変ですが、そもそも日本語を出力できる画像生成AIがなかったのですから、驚きです。
日本語はnijijourney(ニジジャーニー)も全然無理でした。
文字出力得意なIdeogramもとても読めたものではありませんでした。
まず、AIによる画像生成の代表的なモデルは主に以下の3種類です。
🌀 拡散モデル(Diffusion Model):Stable DiffusionやDALL·Eで使われている、ノイズから少しずつ画像を再構築するタイプ。
🧱 自己回帰モデル(Autoregressive Model):画像を1ピクセルずつ順番に描いていくタイプ。Googleが開発したParti(Pathways Autoregressive Text-to-Image model)などで採用されています。
🔁 Any-to-Anyモデル:テキスト・画像・音声などを全て一つのモデルで処理し、自由に変換できるタイプ。Gemini 2.0やGPT-4oが該当。
これらのモデルについて詳しく知りたい方は以下の単語でYouTube検索すると技術的な解説を視覚的に確認できます。ほぼ全ての動画が英語ですがYouTubeには自動翻訳も付いてるのでおおよそわかると思います。
• how text to image AI works
• diffusion model explained
• how stable diffusion works
• latent diffusion explained
• denoising diffusion model
ChatGPTは自己回帰+Any-to-Any?
ChatGPTで画像を生成すると、最初にモヤモヤした曖昧なイメージが表示され、そこから上から順番にディテールが描かれていく様子が見られます。この生成の流れから推測すると、自己回帰モデルの特徴(順番に描いていく)と、Any-to-Any構造の融合により実現されている可能性が高いです。
公式な情報は出ていませんし、ChatGPT本人に聞いても教えてくれません。
これにCLIPというテキストと画像の意味を繋げるAIモデルみたいな仕組みも使ってると思います。
画像生成AIはChatGPTだけでいいかもしれない
そんな印象です。
Ideogramも解約してしまいました。
Diffusionモデル最高峰のMidjourneyは残すつもりでいました。このブログを書くまでは。
書きながら調べたら、、、
こちらがChatGPT 4o
こちらがMidjourney
自分で出力した画像ではないですが。
また、Midjourneyでモックアップを作って、ChatGPTに指定画像にしてもらうことも簡単にできます。
こちらがMidjourneyがつくったモックアップ。
無地の空き缶を作ってみたいなプロンプトですぐに作れます。
もちろんChatGPTも作れますが、Midjourneyに慣れているとかなり詳細に調整できるのでまだ使う価値はありますね。
こちらがChatGPTに嵌め込んでもらったもの。
現在はChatGPTの20ドル課金で使えていますが、今後月額20ドルのサブスクは画像生成に制限ありとかにならないことを願います。
サム・アルトマンさんお願いします!