DCAI
Loading Light/Dark Toggl

Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編

⏱️12min read
📅 2024年4月18日
🔄 2024年11月15日
カテゴリー:📂 生成AI初級
Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編のメイン画像
Supported by

Stable Diffusionの基本

Stable Diffusionは、テキストから高品質な画像を生成するAIツールです。以下に、その基本プロセスを分かりやすく説明します。

PR
🔍Monitorsfrom Amazon
1
【Amazon.co.jp 限定】アイ・オー・データ IODATA モニター 23.8インチ ブラック ADSパネル 非光沢 省電力 (HDMI/アナログRGB/スピーカー付/VESA対応/土日サポート/日本メーカー/無輝点保証) EX-A241DBの商品画像

【Amazon.co.jp 限定】アイ・オー・データ IODATA モニター 23.8インチ ブラック ADSパネル 非光沢 省電力 (HDMI/アナログRGB/スピーカー付/VESA対応/土日サポート/日本メーカー/無輝点保証) EX-A241DB

¥14,800

¥12,580

値引き¥2,220 (15%)

ASIN:B0CPXQQLL2

2
【Amazon.co.jp限定】アイリスオーヤマ モニター 24インチ スピーカー内蔵 VAパネル HDMI VGA 角度調整可能 FHD 1920x1080 100Hz 14ms ブルーライト軽減 フレームレス VESA対応 DT-GF233R-Bの商品画像

【Amazon.co.jp限定】アイリスオーヤマ モニター 24インチ スピーカー内蔵 VAパネル HDMI VGA 角度調整可能 FHD 1920x1080 100Hz 14ms ブルーライト軽減 フレームレス VESA対応 DT-GF233R-B

¥13,800

¥11,700

値引き¥2,100 (15%)

ASIN:B0CYPWXXWM

3
【Amazon.co.jp限定】ASUS フレームレス モニター VZ249HR 23.8インチ/フルHD/IPS/薄さ7mm/ブルーライト軽減/フリッカーフリー/HDMI,D-sub/スピーカー/3年保証の商品画像

【Amazon.co.jp限定】ASUS フレームレス モニター VZ249HR 23.8インチ/フルHD/IPS/薄さ7mm/ブルーライト軽減/フリッカーフリー/HDMI,D-sub/スピーカー/3年保証

¥13,980

ASIN:B07LH1ZDSL

4
PHILIPS 液晶ディスプレイ PCモニター 272E2FE/11 (27インチ/5年保証/FHD/IPS/D-Sub 15,HDMI,Display Port/昇降・高さ調節/チルト/4面フレームレス/FreeSync(HDMI,DP)ちらつき防止/ブルーライト軽減)の商品画像

PHILIPS 液晶ディスプレイ PCモニター 272E2FE/11 (27インチ/5年保証/FHD/IPS/D-Sub 15,HDMI,Display Port/昇降・高さ調節/チルト/4面フレームレス/FreeSync(HDMI,DP)ちらつき防止/ブルーライト軽減)

¥18,800

ASIN:B08PTSY9PL

5
【Amazon.co.jp限定】MSI モニター PRO MP2412 23.8インチ/フルHD/VAパネル/100Hz/1ms/ブルーライトカット/アンチフリッカー/HDMI/DP/VESA対応/メーカー3年保証の商品画像

【Amazon.co.jp限定】MSI モニター PRO MP2412 23.8インチ/フルHD/VAパネル/100Hz/1ms/ブルーライトカット/アンチフリッカー/HDMI/DP/VESA対応/メーカー3年保証

¥14,800

¥9,980

値引き¥4,820 (33%)

ASIN:B0CDBS93QZ

6
PHILIPS モニターディスプレイ 271E1D/11 (27インチ/IPS Technology/FHD/5年保証/HDMI/D-Sub/DVI-D/フレームレス)の商品画像

PHILIPS モニターディスプレイ 271E1D/11 (27インチ/IPS Technology/FHD/5年保証/HDMI/D-Sub/DVI-D/フレームレス)

¥17,800

ASIN:B07V5BHZLW

7
【Amazon.co.jp限定】Dell ハイスペック 23.8インチ ホワイトモニター(5年保証/FHD/IPS,非光沢/縦横回転,高さ調整/5Wx2スピーカー/HDMIx2) S2425HS-Aの商品画像

【Amazon.co.jp限定】Dell ハイスペック 23.8インチ ホワイトモニター(5年保証/FHD/IPS,非光沢/縦横回転,高さ調整/5Wx2スピーカー/HDMIx2) S2425HS-A

¥20,800

¥15,600

値引き¥5,200 (25%)

ASIN:B0CXXC87JK

8
Dell SE2222H 21.45インチ モニター ディスプレイ (3年間交換保証/FHD/VA 非光沢/HDMI D-Sub15ピン/傾き調整)の商品画像

Dell SE2222H 21.45インチ モニター ディスプレイ (3年間交換保証/FHD/VA 非光沢/HDMI D-Sub15ピン/傾き調整)

¥14,600

ASIN:B095749V5V

9
日本エイサー 【Amazon.co.jp限定】Acer モニター 23.8インチ フルHD VA 非光沢 100Hz 1ms HDMI ミニD-Sub15 VESAマウント対応 スピーカー内蔵 AMD FreeSync KA242YHbmixの商品画像

日本エイサー 【Amazon.co.jp限定】Acer モニター 23.8インチ フルHD VA 非光沢 100Hz 1ms HDMI ミニD-Sub15 VESAマウント対応 スピーカー内蔵 AMD FreeSync KA242YHbmix

¥13,980

¥11,800

値引き¥2,180 (16%)

ASIN:B0BW3PJ2TL

10
HP モニター V27ie G5 27インチ フルHD 75Hz 5ms IPSパネル 非光沢 HDMI DisplayPort VGA AMD FreeSync 角度調整ブルーライトカット 薄型ベゼル(型番:6D8H3AA-AAAB)の商品画像

HP モニター V27ie G5 27インチ フルHD 75Hz 5ms IPSパネル 非光沢 HDMI DisplayPort VGA AMD FreeSync 角度調整ブルーライトカット 薄型ベゼル(型番:6D8H3AA-AAAB)

¥16,001

¥15,150

値引き¥851 (5%)

ASIN:B0CFXKRGN8

最終更新日:2024年11月28日 0:18 ※表示の価格情報は古い場合があります。
1. プロンプトの入力:
  • ユーザーは、生成したい画像の内容を簡潔なテキスト(プロンプト)として入力します。
  • このプロンプトは、AIが画像を生成する際の指示となります。
2. ノイズの追加と除去:
  • AIはまず、ランダムノイズを画像に加えます。
  • 次に、このノイズを徐々に除去していき、プロンプトに基づいた画像を「生成」します。
3. 画像の生成:
  • AIは、大まかなイメージから始めて、徐々に細かいディテールを加えていきます。
  • このプロセスを通じて、プロンプトに合った画像が形成されます。
4. 結果の確認と調整:
  • 生成された画像はユーザーによって確認され、必要に応じて調整が行われます。
  • プロンプトを変更することで、異なる結果を得ることができます。
5. 拡張機能の利用:
  • Stable Diffusionには、画像のクオリティを向上させるための拡張機能があります。
  • LoRAやControlNETなどのツールを使用して、さらに詳細な画像を生成することが可能です。

インターフェイスの説明

Automatic1111のStable Diffusion web UIは、初心者でも簡単に使えるように設計されています。

各エリアについて

チェックポイント・プロンプトエリア: モデルの学習済みチェックポイントの選択や、プロンプトを入力するエリア。また、text2imgなどのツールの切り替え、設定の変更のタブがあります。
生成パラメーターエリア: サンプリング方法や、生成画像の大きさ、ステップやCFGなどの生成に必要なパラメーターを設定するエリアです。またタブの切り替えによりLoraやEmbeddingの呼び出し等もできます。
生成ボタンエリア: 「Generate」ボタンのほかにプロンプトの読み込みプリセットの管理ができます。
Previewエリア: 生成された画像のプレビューや生成画像をImg2imgなどに送るショートカットボタン類があります。

チェックポイント・プロンプトエリアについて

チェックポイント: モデルの学習済みチェックポイントを選択します。
ページ切り替えタブ: 「text2img」や設定・エクステンションの管理ページに切り替えます。
プロンプト: 生成したい画像の特徴を記述します。
ネガティブプロンプト: 生成したくない画像の特徴を記述します。

生成パラメーターエリアについて

Sampling method: サンプラーの種類を選択します。(v1.9.0でスケジュールタイプが選択できるようになりました。)
Sampling steps: サンプリングステップの回数を設定します。
Hires. Fix: 高解像度画像を生成するかどうかを選択します。
Refiner: Refinerは、主にSDXLのセカンドステージを組み込む際につかいます。
Width: 生成画像の幅を設定します。
Height: 生成画像の高さを設定します。
Batch count: 出力する生成画像の枚数を設定します。
Batch size: 一回の出力で同時に生成する画像の枚数を設定します。
CFG Scale: プロンプトにどれだけ忠実に画像を生成するかを設定します。
Seed: シード値(生成の種のようなもの)をランダムにしたり任意の数値を入力したりします。「🎲️」ボタンでランダム/「♻️」ボタンで前回のシードを呼び出し/「Extra」でさらに細かいSeed設定ができます。
Script: X/Y/Z plot等のスクリプトを呼び出します。

生成ボタンエリアについて

Generateボタン: 画像の生成を開始したり、一時停止・キャンセルをするボタン
リロードボタン: キャッシュに残っている前回の設定を呼び出します。
消去ボタン: プロンプト・ネガティブプロンプトを消去します。
スタイル適応ボタン: 適応中のスタイルをプロンプト・ネガティブプロンプトに書き出します。
スタイル編集ボタン: プロンプト・ネガティブプロンプトをプリセットとして保存・呼び出しをします。

プレビューエリアについて説明

プレビュー: 生成された画像が表示されます。
出力フォルダボタン: 出力された画像が入っているフォルダーがファイルエクスプローラーで開きます。
画像の保存ボタン: プレビューで選択した画像を保存します。
画像のzip保存ボタン: プレビューに表示されている画像すべてをzip形式でを圧縮保存します。
img2imgへ送るボタン: プレビューで選択した画像をimg2imgにプロンプトや設定と共に送ります。
img2img inpaintへ送るボタン: プレビューで選択した画像をimg2imgのinpaintにプロンプトや設定と共に送ります。
Extrasへ送るボタン: プレビューで選択した画像をExtrasに送ります。
Hires.Fixボタン: プレビューで選択した画像を現在の設定でHires.Fixで高解像度化します。

プレビュー画像が表示されるとプレビューエリアの下部に画像のメタデータが表示されます。

プロンプトの基本構造

プロンプトは、AIが生成する画像の特徴を簡潔かつ明確に伝えるためのテキストです。具体的なキーワードやフレーズを用いて、AIに対して正確な指示を与えることが重要です。

例:黒髪の少女の画像生成 街頭に立つ黒髪の少女の画像を生成したい場合、以下のようにプロンプトを記述します。

  • Danbooruスタイル:
    1girl, black_hair, standing, street, front_view
  • 自然言語スタイル:
    A girl with black hair standing on the street, viewed from the front.

プロンプトスタイルの選択

プロンプトには、主に2つのスタイルがあります。

  • Danbooruスタイル:キーワード(タグ)をコンマで区切って列挙します。
  • 自然言語スタイル:より自然な文章形式で記述します。

これらのスタイルを組み合わせることも可能です。異なる単語やフレーズの組み合わせによって、AIはさまざまな画像を生成します。そのため、さまざまなプロンプトを試して、最適な結果を見つけることをオススメします。

プロンプトの最適化

良いプロンプトを書くには、以下の点に注意しましょう。

  • 明確性:生成したい画像の特徴を明確に伝える。
  • 簡潔性:不要な情報は省略し、必要なキーワードに焦点を当てる。
  • バリエーション:異なるスタイルや表現を試し、AIの反応を観察する。

ネガティブプロンプトの書き方

ネガティブプロンプトは、生成したくない画像の特徴を記述するテキストです。生成される画像に含まれてほしくない要素を指定します。プロンプトスタイルはDanbooruスタイルで記述しましょう。

たとえば先ほど紹介したプロンプトをネガティブプロンプトを空白にしたまま生成するとバランスの崩れた人物が生成されることがあります。このような生成を避けるためにネガティブプロンプトに含めたくないプロンプトを入れていきます。

worst, ugry, deformed,

worst(最低), ugry(醜い), deformed(変形)の様なネガティブプロンプトを入れくことによって生成の品質が上がってきます。

Sampling stepsについて

一般的には「Sampling steps」が大きければ大きいほど画像の品質が上がるといわれていますが、むやみに数値を上げるだけでは生成時間が長くなります。時間と品質のバランスを考えて数値を決めましょう。参考までに上の画像でSteps: 30とSteps: 70を比較してもほとんど変化が現れていません。

慣れるまでは25~45辺りで生成しましょう。

サンプリングメソッドとノイズスケジュールについて

サンプリングメソッド

画像を生成する過程で、Stable Diffusionは初めに潜在空間(例:512x512ドット)の空間において完全にランダムな画像を作り出します。続いて、predicted noise(ノイズ予測)がその画像のノイズを推定し、予測されたノイズは画像から差し引かれます。この一連のプロセスは数10回にわたって繰り返され、最終的には、クリアな画像が生成されます。

このノイズを取り除く過程は、Stable Diffusionが各ステップごとに新しいサンプル画像を生成するため、サンプリングと称されます。サンプリングに用いられる手法は、サンプラーあるいはサンプリング手法と呼ばれます。

下記によく使われているメソッドとステップの組み合わせの一例を挙げておきます。

スピード重視
  • DPM++ 2M Karras: 20~30ステップ
  • UniPC: 20~30ステップ
品質重視
  • DPM++ SDE Karras: 10~15ステップ
  • DDIM: 10~15ステップ

チェックポイントモデルによって推奨している設定が説明されているのでそれを参考にするのも良いと思います。

スケジュールタイプ(ノイズスケジュール)について

「ノイズスケジュール」とはノイズの除去をステップごとに増やしていき最終的にノイズをゼロにする曲線比率の事です。

ノイズスケジュールのタイプによって最初のステップのもっとも多いノイズ量から最終ステップのノイズ0状態までの減衰カーブが変わります。

バージョン1.90では、デフォルトスケジュール以外のスケジュールも適用できるようになりました。初心者の方は「Automatic」を選択することで、サンプリングメソッドのデフォルトスケジュールが自動的に選択されます。

CFG Scaleについて

「CFG Scale (classifier-free guidance scale)」とはプロンプトにどれだけ忠実に画像を生成するかを調整する値になります。

CFG Scaleの値が大きければプロントに近い画像を生成しますが、高すぎると画像が歪んできます。また数値が小さすぎると画像が荒くなっていきますが画像品質は上がっていきます。このバランスを見ながら値を決めていきます。

モデルや生成したい画像のスタイルにもよりますが慣れるまでは5~9辺りで生成しましょう。

Hires. Fixについて

Upscalerの比較
Hires steps: 10, Denoising strength: 0.5, Hires upscale: 2
画像を開く

「Hires. Fix」は生成された画像を元にさらにディテールを加えながら解像度をあげていきます。チェックボックスをオンにするとすべての生成でHires. Fixが適応されます。

Upscaler: アップスケーラーを選択します。イラスト系の場合は、Latent / R-ESRGAN 4x+ / R-ESRGAN 4x+ Anime6B 辺りが一般的に使われています。
Hires steps: 元画像のSampling StepよりさらにStepを追加してディテールを追加します。たとえばSampling Stepが20でHiRes stepsが20だとトータルで40ステップとなります。10~15辺りが使いやすいです。Sampling Stepが50を超える場合はHiRes stepsをその半分にすると良いでしょう。
Denoising strength: 0に近いほど元画像に近い画像になります。0.3~0.5辺りがおススメです。
Upscale by: 拡大率を入力します。
Resize width to/Resize height to: 幅と高さ任意にしたい場合はこちらに入力してください。

Refinerについて

「Refiner」は、SDXLモデルの生成時に画像を微調整するためのツールです。生成された画像に対して、さらなる調整や改善を行いたい場合にチェックボックスをオンにして使用します。

Checkpoint: Refinerに使うモデルを選択します。
Switch at: 生成のどの段階から切り替えるかの比率を入力します。1=切り替えない 0.5=半分の段階で切り替え。

さらに詳しくリファイナーの使い方を知りたい方は下記の記事を参考にしてください。

Clip Skipについて

「Clip Skip」は、Stable Diffusion Web UIにおいて、入力したプロンプトをどれだけ正確に反映させるかを設定する指標で1~12の値が使えます。具体的には、以下のような特性があります。

  • 値が小さい場合:プロンプトどおりのイラストが生成される。
  • 値が大きい場合:プロンプトを無視したイラストが生成される。

Clip skipの設定はモデルごとに適正値が異なります。自分が使用したいモデルのダウンロードページを参照して、推奨されているClip skipの値を確認しましょう。一般的には、Clip skipを2から始めて、プロンプトが画像にうまく反映されない場合は値を1に変更すると、うまくいく可能性が高まります。

Clip skipと「CFG scale」の違い

Stable Diffusionには、画像にプロンプトをどの程度影響させるかを指定する「CFG scale」という設定もあります。Clip skipとCFG scaleは両方ともプロンプトに作用する設定ですが、根本的な違いが存在します。

Clip skip:
  • プロンプトの解釈段階による違いに基づいて画像を生成する設定。
  • 中途半端に生成された画像の中から、望む結果を選び出すことができる。
  • 通常は1か2を使用。
CFG scale:
  • すべての層に一定の理解度を与えつつ、プロンプトの影響力はAIに委ねる設定。
  • 呪文(プロンプト)の解釈をAIの裁量に任せて画像を生成する。

Clip skipとCFG scaleを調整することで、プロンプトに対して理想的な画像を生成させるバランスを調整できます。自分の好みやモデルに合わせて設定を調整してみてください。

Clip skipの有効化方法

Stable Diffusion web UIのインストール初期状態では「Clip skip」を使うことができません。以下の方法で有効化しましょう。

設定を開く: チェックポイント・プロンプトエリアにある「Settings」タブを開きます。
ユーザーインターフェースの選択: 左側のメニューから「User Interface」を選択してください。
クイック設定リストのアクセス: 画面上部から2番目に位置する「[info] Quicksettings list」をクリックします。
Clip skipの設定: 表示された検索ボックスにCLIP_stop_at_last_layersと入力し、検索結果から該当する項目を選択します。
CLIP_stop_at_last_layers
設定の適用: 選択後、「Apply Settings」ボタンをクリックします。
UIの再起動: 「Reload UI」を押して、ユーザーインターフェースを再起動します。
Clip skipの確認: 再起動後、「Stable Diffusion checkpoint」の右側に「Clip skip」が表示されていれば、設定が完了しています。

画像の生成

設定したパラメーターに基づいて、「Generate」ボタンをクリックまたはCtrl+Enterで画像生成を開始します。生成された画像は、プレビューエリア表示され、保存できます。

生成の中断とスキップ

生成中はボタンが「Interrupt|Skip」となりますので生成の中断とスキップができます。

  • 生成の中断:「Interrupt」をクリックすると「Interrupting…」に変わるのでもう一度クリックで生成の中断ができます。
  • 生成のスキップ:生成の「Batch count」が2以上の時に押すと現在の生成を終了して次のバッチに移行します。

自動生成

「Generate」ボタン右クリックすると「Generate forver | Cancel Generate forver」が選択できるので「Generate forver」を選択すると自動生成が開始されます。自動生成中に「Cancel Generate forver」を選択すれば自動生成が終了します。

画像の生成を繰り返していると「outputs」フォルダーstable-diffusion-webui > outputsに大量の画像が溜まっていきます。(プレビューエリアの📂ボタンを押すと書き出し先のフォルダーが開きます。)このフォルダーをこまめに管理することををお忘れなく。

まとめ

本記事では、Stable Diffusion web UIのtext2img機能を用いたAI画像生成の基本的な手順を詳しく解説しました。このガイドを参考にすれば、AIを活用した画像生成の世界への第一歩を踏み出すことができるでしょう。

Stable Diffusion web UIは、直感的な操作性と高度なカスタマイズ性を兼ね備えたツールであり、ユーザーが独自のクリエイティブなビジョンを実現するための強力なサポートを提供します。text2img機能を駆使することで、テキストからビジュアルアートへと想像を具現化できます。

今回のガイドが皆さんのデジタルクリエイティブに役立つことを願っています。

PR
🔍Illust Booksfrom Amazon
1
「ほしい」が見つかる素材集 完全版イラストカット大事典15000 (デジタル素材BOOK)の商品画像

「ほしい」が見つかる素材集 完全版イラストカット大事典15000 (デジタル素材BOOK)

¥1,980

ASIN:4295015911

2
VISIONS 2025 ILLUSTRATORS BOOKの商品画像

VISIONS 2025 ILLUSTRATORS BOOK

¥3,080

ASIN:4046841079

3
川口イッサ おんなのこイラストポーズ集 自然でかわいい日常ポーズ350の商品画像

川口イッサ おんなのこイラストポーズ集 自然でかわいい日常ポーズ350

¥2,079

ASIN:B0CW1NQ5NZ

4
LAM画集 いかづちの商品画像

LAM画集 いかづち

¥3,234

ASIN:B0DK4L2D27

5
VISIONS 2024 ILLUSTRATORS BOOKの商品画像

VISIONS 2024 ILLUSTRATORS BOOK

¥3,080

ASIN:4046825774

6
原神イラスト集 Vol.1の商品画像

原神イラスト集 Vol.1

¥3,520

ASIN:4047336300

7
絵本みたいにかわいい イラスト素材集の商品画像

絵本みたいにかわいい イラスト素材集

¥2,618

ASIN:4802612176

8
博イラスト集~明日ちゃんまでの足跡~ (ヤングジャンプコミックスDIGITAL)の商品画像

博イラスト集~明日ちゃんまでの足跡~ (ヤングジャンプコミックスDIGITAL)

¥1,568

ASIN:B09P38679Y

9
妖し JAPANESE STYLE ILLUSTRATIONSの商品画像

妖し JAPANESE STYLE ILLUSTRATIONS

¥2,200

ASIN:4766136322

10
秋赤音画集 脈の商品画像

秋赤音画集 脈

¥3,300

ASIN:4768319556

最終更新日:2024年11月28日 0:18 ※表示の価格情報は古い場合があります。
Supported by