DCAI
Loading Light/Dark Toggl

Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編

⏱️12min read
📅 2024年4月18日
🔄 2024年8月25日
カテゴリー:📂 生成AI初級
Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編のメイン画像
Supported by

Stable Diffusionの基本

Stable Diffusionは、テキストから高品質な画像を生成するAIツールです。以下に、その基本プロセスを分かりやすく説明します。

PR
図解ポケット 画像生成AIがよくわかる本の商品画像
図解ポケット 画像生成AIがよくわかる本
🔗Amazonリンク
GALLERIA ガレリア ゲーミングPC ZA9C-R49 Core i9-14900KF/RTX4090/32GBメモリ/1TB SSD/Windows 11 Home デスクトップPC パソコン 13091-4341の商品画像
GALLERIA ガレリア ゲーミングPC ZA9C-R49 Core i9-14900KF/RTX4090/32GBメモリ/1TB SSD/Windows 11 Home デスクトップPC パソコン 13091-4341
🔗Amazonリンク
1. プロンプトの入力:
  • ユーザーは、生成したい画像の内容を簡潔なテキスト(プロンプト)として入力します。
  • このプロンプトは、AIが画像を生成する際の指示となります。
2. ノイズの追加と除去:
  • AIはまず、ランダムノイズを画像に加えます。
  • 次に、このノイズを徐々に除去していき、プロンプトに基づいた画像を「生成」します。
3. 画像の生成:
  • AIは、大まかなイメージから始めて、徐々に細かいディテールを加えていきます。
  • このプロセスを通じて、プロンプトに合った画像が形成されます。
4. 結果の確認と調整:
  • 生成された画像はユーザーによって確認され、必要に応じて調整が行われます。
  • プロンプトを変更することで、異なる結果を得ることができます。
5. 拡張機能の利用:
  • Stable Diffusionには、画像のクオリティを向上させるための拡張機能があります。
  • LoRAやControlNETなどのツールを使用して、さらに詳細な画像を生成することが可能です。

インターフェイスの説明

Automatic1111のStable Diffusion web UIは、初心者でも簡単に使えるように設計されています。

各エリアについて

チェックポイント・プロンプトエリア: モデルの学習済みチェックポイントの選択や、プロンプトを入力するエリア。また、text2imgなどのツールの切り替え、設定の変更のタブがあります。
生成パラメーターエリア: サンプリング方法や、生成画像の大きさ、ステップやCFGなどの生成に必要なパラメーターを設定するエリアです。またタブの切り替えによりLoraやEmbeddingの呼び出し等も出来ます。
生成ボタンエリア: 「Generate」ボタンのほかにプロンプトの読み込みプリセットの管理が出来ます。
Previewエリア: 生成された画像のプレビューや生成画像をImg2imgなどに送るショートカットボタン類があります。

チェックポイント・プロンプトエリアについて

チェックポイント: モデルの学習済みチェックポイントを選択します。
ページ切り替えタブ: 「text2img」や設定・エクステンションの管理ページに切り替えます。
プロンプト: 生成したい画像の特徴を記述します。
ネガティブプロンプト: 生成したくない画像の特徴を記述します。

生成パラメーターエリアについて

Sampling method: サンプラーの種類を選択します。(v1.9.0でスケジュールタイプが選択できるようになりました。)
Sampling steps: サンプリングステップの回数を設定します。
Hires. Fix: 高解像度画像を生成するかどうかを選択します。
Refiner: Refinerは、主にSDXLのセカンドステージを組み込む際につかいます。
Width: 生成画像の幅を設定します。
Height: 生成画像の高さを設定します。
Batch count: 出力する生成画像の枚数を設定します。
Batch size: 一回の出力で同時に生成する画像の枚数を設定します。
CFG Scale: プロンプトにどれだけ忠実に画像を生成するかを設定します。
Seed: シード値(生成の種のようなもの)をランダムにしたり任意の数値を入力したりします。「🎲️」ボタンでランダム/「♻️」ボタンで前回のシードを呼び出し/「Extra」でさらに細かいSeed設定ができます。
Script: X/Y/Z plot等のスクリプトを呼び出します。

生成ボタンエリアについて

Generateボタン: 画像の生成を開始したり、一時停止・キャンセルをするボタン
リロードボタン: キャッシュに残っている前回の設定を呼び出します。
消去ボタン: プロンプト・ネガティブプロンプトを消去します。
スタイル適応ボタン: 適応中のスタイルをプロンプト・ネガティブプロンプトに書き出します。
スタイル編集ボタン: プロンプト・ネガティブプロンプトをプリセットとして保存・呼び出しをします。

プレビューエリアについて説明

プレビュー: 生成された画像が表示されます。
出力フォルダボタン: 出力された画像が入っているフォルダがファイルエクスプローラーで開きます。
画像の保存ボタン: プレビューで選択した画像を保存します。
画像のzip保存ボタン: プレビューに表示されている画像全てをzip形式でを圧縮保存します。
img2imgへ送るボタン: プレビューで選択した画像をimg2imgにプロンプトや設定と共に送ります。
img2img inpaintへ送るボタン: プレビューで選択した画像をimg2imgのinpaintにプロンプトや設定と共に送ります。
Extrasへ送るボタン: プレビューで選択した画像をExtrasに送ります。
Hires.Fixボタン: プレビューで選択した画像を現在の設定でHires.Fixで高解像度化します。

プレビュー画像が表示されるとプレビューエリアの下部に画像のメタデータが表示されます。

プロンプトの基本構造

プロンプトは、AIが生成する画像の特徴を簡潔かつ明確に伝えるためのテキストです。具体的なキーワードやフレーズを用いて、AIに対して正確な指示を与えることが重要です。

例:黒髪の少女の画像生成 街頭に立つ黒髪の少女の画像を生成したい場合、以下のようにプロンプトを記述します。

  • Danbooruスタイル:
    1girl, black_hair, standing, street, front_view
  • 自然言語スタイル:
    A girl with black hair standing on the street, viewed from the front.

プロンプトスタイルの選択

プロンプトには、主に二つのスタイルがあります。

  • Danbooruスタイル:キーワード(タグ)をコンマで区切って列挙します。
  • 自然言語スタイル:より自然な文章形式で記述します。

これらのスタイルを組み合わせることも可能です。異なる単語やフレーズの組み合わせによって、AIは様々な画像を生成します。そのため、さまざまなプロンプトを試して、最適な結果を見つけることをお勧めします。

プロンプトの最適化

良いプロンプトを書くには、以下の点に注意しましょう。

  • 明確性:生成したい画像の特徴を明確に伝える。
  • 簡潔性:不要な情報は省略し、必要なキーワードに焦点を当てる。
  • バリエーション:異なるスタイルや表現を試し、AIの反応を観察する。

ネガティブプロンプトの書き方

ネガティブプロンプトは、生成したくない画像の特徴を記述するテキストです。生成される画像に含まれてほしくない要素を指定します。プロンプトスタイルはDanbooruスタイルで記述しましょう。

例えば先ほど紹介したプロンプトをネガティブプロンプトを空白にしたまま生成するとバランスの崩れた人物が生成されることがあります。このような生成を避けるためにネガティブプロンプトに含めたくないプロンプトを入れていきます。

worst, ugry, deformed,

worst(最低), ugry(醜い), deformed(変形)の様なネガティブプロンプトを入れくことによって生成の品質が上がってきます。

Sampling stepsについて

一般的には「Sampling steps」が大きければ大きいほど画像の品質が上がるといわれていますが、むやみに数値を上げるだけでは生成時間が長くなります。時間と品質のバランスを考えて数値を決めましょう。参考までに上の画像でSteps: 30とSteps: 70を比較してもほとんど変化が現れていません。

慣れるまでは25~45辺りで生成しましょう。

サンプリングメソッドとノイズスケジュールについて

サンプリングメソッド

画像を生成する過程で、Stable Diffusionは初めに潜在空間(例:512x512ドット)の空間において完全にランダムな画像を作り出します。続いて、predicted noise(ノイズ予測)がその画像のノイズを推定し、予測されたノイズは画像から差し引かれます。この一連のプロセスは数十回にわたって繰り返され、最終的には、クリアな画像が生成されます。

このノイズを取り除く過程は、Stable Diffusionが各ステップごとに新しいサンプル画像を生成するため、サンプリングと称されます。サンプリングに用いられる手法は、サンプラーあるいはサンプリング手法と呼ばれます。

下記によく使われているメソッドとステップの組み合わせの一例を挙げておきます。

スピード重視
  • DPM++ 2M Karras: 20~30ステップ
  • UniPC: 20~30ステップ
品質重視
  • DPM++ SDE Karras: 10~15ステップ
  • DDIM: 10~15ステップ

チェックポイントモデルによって推奨している設定が説明されているのでそれを参考にするのも良いと思います。

スケジュールタイプ(ノイズスケジュール)について

「ノイズスケジュール」とはノイズの除去をステップごとに増やしていき最終的にノイズをゼロにする曲線比率の事です。

ノイズスケジュールのタイプによって最初のステップの最も多いノイズ量から最終ステップのノイズ0状態までの減衰カーブが変わります。

バージョン1.90では、デフォルトスケジュール以外のスケジュールも適用できるようになりました。初心者の方は「Automatic」を選択することで、サンプリングメソッドのデフォルトスケジュールが自動的に選択されます。

CFG Scaleについて

「CFG Scale (classifier-free guidance scale)」とはプロンプトにどれだけ忠実に画像を生成するかを調整する値になります。

CFG Scaleの値が大きければプロントに近い画像を生成しますが、高すぎると画像が歪んできます。また数値が小さすぎると画像が荒くなっていきますが画像品質は上がっていきます。このバランスを見ながら値を決めていきます。

モデルや生成したい画像のスタイルにもよりますが慣れるまでは5~9辺りで生成しましょう。

Hires. Fixについて

Upscalerの比較
Hires steps: 10, Denoising strength: 0.5, Hires upscale: 2
画像を開く

「Hires. Fix」は生成された画像を元にさらにディテールを加えながら解像度をあげていきます。チェックボックスをオンにするとすべての生成でHires. Fixが適応されます。

Upscaler: アップスケーラーを選択します。イラスト系の場合は、Latent / R-ESRGAN 4x+ / R-ESRGAN 4x+ Anime6B 辺りが一般的に使われています。
Hires steps: 元画像のSampling StepよりさらにStepを追加してディテールを追加します。例えばSampling Stepが20でHiRes stepsが20だとトータルで40ステップとなります。10~15辺りが使いやすいです。Sampling Stepが50を超える場合はHiRes stepsをその半分にすると良いでしょう。
Denoising strength: 0に近いほど元画像に近い画像になります。0.3~0.5辺りがおススメです。
Upscale by: 拡大率を入力します。
Resize width to/Resize height to: 幅と高さ任意にしたい場合はこちらに入力してください。

Refinerについて

「Refiner」は、SDXLモデルの生成時に画像を微調整するためのツールです。生成された画像に対して、さらなる調整や改善を行いたい場合にチェックボックスをオンにして使用します。

Checkpoint: Refinerに使うモデルを選択します。
Switch at: 生成のどの段階から切り替えるかの比率を入力します。1=切り替えない 0.5=半分の段階で切り替え。

さらに詳しくリファイナーの使い方を知りたい方は下記の記事を参考にしてください。

Clip Skipについて

「Clip Skip」は、Stable Diffusion Web UIにおいて、入力したプロンプトをどれだけ正確に反映させるかを設定する指標で1~12の値が使えます。具体的には、以下のような特性があります。

  • 値が小さい場合:プロンプトどおりのイラストが生成される。
  • 値が大きい場合:プロンプトを無視したイラストが生成される。

Clip skipの設定はモデルごとに適正値が異なります。自分が使用したいモデルのダウンロードページを参照して、推奨されているClip skipの値を確認しましょう。一般的には、Clip skipを2から始めて、プロンプトが画像にうまく反映されない場合は値を1に変更すると、うまくいく可能性が高まります。

Clip skipと「CFG scale」の違い

Stable Diffusionには、画像にプロンプトをどの程度影響させるかを指定する「CFG scale」という設定もあります。Clip skipとCFG scaleは両方ともプロンプトに作用する設定ですが、根本的な違いが存在します。

Clip skip:
  • プロンプトの解釈段階による違いに基づいて画像を生成する設定。
  • 中途半端に生成された画像の中から、望む結果を選び出すことができる。
  • 通常は1か2を使用。
CFG scale:
  • すべての層に一定の理解度を与えつつ、プロンプトの影響力はAIに委ねる設定。
  • 呪文(プロンプト)の解釈をAIの裁量に任せて画像を生成する。

Clip skipとCFG scaleを調整することで、プロンプトに対して理想的な画像を生成させるバランスを調整できます。自分の好みやモデルに合わせて設定を調整してみてください。

Clip skipの有効化方法

Stable Diffusion web UIのインストール初期状態では「Clip skip」を使うことが出来ません。以下の方法で有効化しましょう。

設定を開く: チェックポイント・プロンプトエリアにある「Settings」タブを開きます。
ユーザーインターフェースの選択: 左側のメニューから「User Interface」を選択してください。
クイック設定リストのアクセス: 画面上部から2番目に位置する「[info] Quicksettings list」をクリックします。
Clip skipの設定: 表示された検索ボックスにCLIP_stop_at_last_layersと入力し、検索結果から該当する項目を選択します。
CLIP_stop_at_last_layers
設定の適用: 選択後、「Apply Settings」ボタンをクリックします。
UIの再起動: 「Reload UI」を押して、ユーザーインターフェースを再起動します。
Clip skipの確認: 再起動後、「Stable Diffusion checkpoint」の右側に「Clip skip」が表示されていれば、設定が完了しています。

画像の生成

設定したパラメーターに基づいて、「Generate」ボタンをクリックまたはCtrl+Enterで画像生成を開始します。生成された画像は、プレビューエリア表示され、保存することができます。

生成の中断とスキップ

生成中はボタンが「Interrupt|Skip」となりますので生成の中断とスキップをすることが出来ます。

  • 生成の中断:「Interrupt」をクリックすると「Interrupting…」に変わるのでもう一度クリックで生成の中断が出来ます。
  • 生成のスキップ:生成の「Batch count」が2以上の時に押すと現在の生成を終了して次のバッチに移行します。

自動生成

「Generate」ボタン右クリックすると「Generate forver | Cancel Generate forver」が選択できるので「Generate forver」を選択すると自動生成が開始されます。自動生成中に「Cancel Generate forver」を選択すれば自動生成が終了します。

画像の生成を繰り返していると「outputs」フォルダーstable-diffusion-webui > outputsに大量の画像が溜まっていきます。(プレビューエリアの📂ボタンを押すと書き出し先のフォルダーが開きます。)このフォルダーをこまめに管理することををお忘れなく。

まとめ

本記事では、Stable Diffusion web UIのtext2img機能を用いたAI画像生成の基本的な手順を詳しく解説しました。このガイドを参考にすれば、AIを活用した画像生成の世界への第一歩を踏み出すことができるでしょう。

Stable Diffusion web UIは、直感的な操作性と高度なカスタマイズ性を兼ね備えたツールであり、ユーザーが独自のクリエイティブなビジョンを実現するための強力なサポートを提供します。text2img機能を駆使することで、テキストからビジュアルアートへと想像を具現化することができます。

今回のガイドが皆さんのデジタルクリエイティブに役立つことを願っています。

PR
生成AI 真の勝者の商品画像
生成AI 真の勝者
🔗Amazonリンク
GIGABYTE NVIDIA RTX4080 SUPER 搭載 グラフィックボード GDDR6X 16GB【国内正規代理店品】 GV-N408SWF3V2-16GDの商品画像
GIGABYTE NVIDIA RTX4080 SUPER 搭載 グラフィックボード GDDR6X 16GB【国内正規代理店品】 GV-N408SWF3V2-16GD
🔗Amazonリンク
Supported by