近年、拡散確率モデルは高品質な画像生成に関連するさまざまな下流タスクに対して優れた性能と適用性を示しています。拡散モデルは、ノイズが加えられた入力画像を繰り返しノイズ除去することで動作します。拡散モデルは、安定したトレーニング動態や高解像度画像を生成する能力などの利点があり、画像合成タスクに有望な選択肢となっています。
テキストから画像への合成には3つの課題があります。
既存の生成モデルは単一オブジェクトの画像生成に優れていますが、複数のエンティティを含む画像の生成はより大きな課題です。本研究は、主題の欠落と混合の課題に対処することを目的としています。
Stable Diffusionプロセスは、Tから0までのインデックスを持つ反復手順です。各ステップで、ランダムにサンプリングされた潜在マップz_TがUNetに入力され、ノイズ推定を予測し、徐々にノイズを除去して最終的にクリーンな潜在マップz_0を生成します。潜在マップz_t ∈ R^{4×h×w}はステップtでの出力を表します。初期ステップはレイアウト作成に重要であり、後半のステップは局所構造を改善します。テキストを条件付けるために、N個のトークンからなるプロンプトPを使用し、潜在画像z_tはP×Pパッチのグリッドとして見なされます。各パッチを各プロンプトトークンにリンクするために、クロスアテンションマップXAM A_t ∈ R^{P ×P ×N}が使用されます。Sをプロンプト内のすべての主題の集合とし、sをトークンインデックスとします。ステップtで、A^s_t∈ R^{P×P}はトークンsのXAMであり、各パッチをトークンsにリンクします。
$$
Stable Diffusionプロセスは、Tから0までのインデックスを持つ反復手順です。各ステップで、ランダムにサンプリングされた潜在マップz_TがUNetに入力され、ノイズ推定を予測し、徐々にノイズを除去して最終的にクリーンな潜在マップz_0を生成します。潜在マップz_t ∈ R^{4×h×w}はステップtでの出力を表します。初期ステップはレイアウト作成に重要であり、後半のステップは局所構造を改善します。テキストを条件付けるために、N個のトークンからなるプロンプトPを使用し、潜在画像z_tはP×Pパッチのグリッドとして見なされます。各パッチを各プロンプトトークンにリンクするために、クロスアテンションマップXAM A_t ∈ R^{P ×P ×N}が使用されます。Sをプロンプト内のすべての主題の集合とし、sをトークンインデックスとします。ステップtで、A^s_t∈ R^{P×P}はトークンsのXAMであり、各パッチをトークンsにリンクします。 $$
アプローチは3つのステップで構成されます: