ギャラリー

AIイラスト初級

AIイラスト中級

AIイラスト上級

Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編

⏱️10min read

📅 2024年4月18日

🔄 2024年11月15日

カテゴリー：📂 AIイラスト初級

タグ：🏷️ AUTOMATIC1111 🏷️ text2image

Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編のメイン画像

📄目次

Stable Diffusionの基本
インターフェイスの説明
プロンプトの基本構造
1. プロンプトスタイルの選択
2. プロンプトの最適化
ネガティブプロンプトの書き方
Sampling stepsについて
サンプリングメソッドとノイズスケジュールについて
1. サンプリングメソッド
2. スケジュールタイプ（ノイズスケジュール）について
CFG Scaleについて
Hires. Fixについて
Refinerについて
Clip Skipについて
1. Clip skipと「CFG scale」の違い
2. Clip skipの有効化方法
画像の生成
1. 生成の中断とスキップ
2. 自動生成
まとめ

Supported by

Stable Diffusionの基本

Stable Diffusionは、テキストから高品質な画像を生成するAIツールです。以下に、その基本プロセスを分かりやすく説明します。

PR

🔍Monitorsfrom Amazon

1

Xiaomi モニター A24i ディスプレイ 23.8インチフルHD 1920x1080 IPSパネル 100Hz 超薄型 6ms ブルーライト VESAマウント対応の商品画像

Xiaomi モニター A24i ディスプレイ 23.8インチフルHD 1920x1080 IPSパネル 100Hz 超薄型 6ms ブルーライト VESAマウント対応

ASIN:B0CWS1T7PW

Amazonで見る

2

【Amazon.co.jp 限定】アイ・オー・データ IODATA モニター 23.8インチブラック ADSパネル非光沢省電力 (HDMI/アナログRGB/スピーカー付/VESA対応/土日サポート/日本メーカー/無輝点保証) EX-A241DBの商品画像

【Amazon.co.jp 限定】アイ・オー・データ IODATA モニター 23.8インチブラック ADSパネル非光沢省電力 (HDMI/アナログRGB/スピーカー付/VESA対応/土日サポート/日本メーカー/無輝点保証) EX-A241DB

ASIN:B0CPXQQLL2

Amazonで見る

3

【Amazon.co.jp限定】ASUS モニター Eyer Care VZ249HR 23.8インチ/フルHD/IPS/薄さ7mm/ブルーライト軽減/フリッカーフリー/HDMI D-sub/スピーカー/3年保証の商品画像

【Amazon.co.jp限定】ASUS モニター Eyer Care VZ249HR 23.8インチ/フルHD/IPS/薄さ7mm/ブルーライト軽減/フリッカーフリー/HDMI D-sub/スピーカー/3年保証

ASIN:B07LH1ZDSL

Amazonで見る

4

I-O DATA モニター 20.7インチ LCD-MF211ES ブラック（フルHD1920*1080/ADS/VGA/DVI/HDMI）スピーカー内蔵 PS5、switch対応(Ymer-Shop) (整備済み品)の商品画像

I-O DATA モニター 20.7インチ LCD-MF211ES ブラック（フルHD1920*1080/ADS/VGA/DVI/HDMI）スピーカー内蔵 PS5、switch対応(Ymer-Shop) (整備済み品)

ASIN:B0DJ834W1F

Amazonで見る

5

KEEPTIME モバイルモニター 15.6インチ 1920*1080 モバイルディスプレイポータブルモニター IPS液晶パネル非光沢画面薄型軽量マグネット保護カバー付き USB Type-C ミニHDMI PS4/XBOX/Switch/PC/Macなど対応在宅勤務リモートワークの商品画像

KEEPTIME モバイルモニター 15.6インチ 1920*1080 モバイルディスプレイポータブルモニター IPS液晶パネル非光沢画面薄型軽量マグネット保護カバー付き USB Type-C ミニHDMI PS4/XBOX/Switch/PC/Macなど対応在宅勤務リモートワーク

ASIN:B0D1K8H4F5

Amazonで見る

6

Acer モニター 23.8インチフルHD 非光沢 120Hz 1ms(VRB) sRGB 99% AdaptiveSync HDMI 1.4 ミニD-Sub 15ピンスピーカー・ヘッドフォン端子非搭載 VESAマウント対応ゼロフレームデザイン EK241YGbiの商品画像

Acer モニター 23.8インチフルHD 非光沢 120Hz 1ms(VRB) sRGB 99% AdaptiveSync HDMI 1.4 ミニD-Sub 15ピンスピーカー・ヘッドフォン端子非搭載 VESAマウント対応ゼロフレームデザイン EK241YGbi

ASIN:B0DK9H4JR6

Amazonで見る

7

【整備済み品】富士通 FUJITSU VL-B24-8T 23.8インチワイド LED液晶モニター非光沢/IPSパネル/FHD(1920x1080)/DP/DVI/VGA/VESA準拠スピーカー内蔵/画面回転/高さ調整の商品画像

【整備済み品】富士通 FUJITSU VL-B24-8T 23.8インチワイド LED液晶モニター非光沢/IPSパネル/FHD(1920x1080)/DP/DVI/VGA/VESA準拠スピーカー内蔵/画面回転/高さ調整

ASIN:B0D2MC96MM

Amazonで見る

8

I-O DATA 広視野角 23.8型液晶ディスプレイブラック LCD-MF244EDSB フリッカーレス FHD HDMI ブラックスピーカー Switch PS 対応 (整備済み品)の商品画像

I-O DATA 広視野角 23.8型液晶ディスプレイブラック LCD-MF244EDSB フリッカーレス FHD HDMI ブラックスピーカー Switch PS 対応 (整備済み品)

ASIN:B0D6JXXFQT

Amazonで見る

9

【Amazon.co.jp限定】Dell ハイスペック 23.8インチホワイトモニター(5年保証/FHD/IPS,非光沢/縦横回転,高さ調整/5Wx2スピーカー/HDMIx2) S2425HS-Aの商品画像

【Amazon.co.jp限定】Dell ハイスペック 23.8インチホワイトモニター(5年保証/FHD/IPS,非光沢/縦横回転,高さ調整/5Wx2スピーカー/HDMIx2) S2425HS-A

ASIN:B0CXXC87JK

Amazonで見る

10

PHILIPS モニターディスプレイ 271E1D/11 (27インチ/IPS Technology/FHD/5年保証/HDMI/D-Sub/DVI-D/フレームレス)の商品画像

PHILIPS モニターディスプレイ 271E1D/11 (27インチ/IPS Technology/FHD/5年保証/HDMI/D-Sub/DVI-D/フレームレス)

ASIN:B07V5BHZLW

Amazonで見る

1. プロンプトの入力：

ユーザーは、生成したい画像の内容を簡潔なテキスト（プロンプト）として入力します。
このプロンプトは、AIが画像を生成する際の指示となります。

2. ノイズの追加と除去：

AIはまず、ランダムノイズを画像に加えます。
次に、このノイズを徐々に除去していき、プロンプトに基づいた画像を「生成」します。

3. 画像の生成：

AIは、大まかなイメージから始めて、徐々に細かいディテールを加えていきます。
このプロセスを通じて、プロンプトに合った画像が形成されます。

4. 結果の確認と調整：

生成された画像はユーザーによって確認され、必要に応じて調整が行われます。
プロンプトを変更することで、異なる結果を得ることができます。

5. 拡張機能の利用：

Stable Diffusionには、画像のクオリティを向上させるための拡張機能があります。
LoRAやControlNETなどのツールを使用して、さらに詳細な画像を生成することが可能です。

インターフェイスの説明

Automatic1111のStable Diffusion web UIは、初心者でも簡単に使えるように設計されています。

各エリアについて

Stable Diffusion web
UI各エリアの説明画像

チェックポイント・プロンプトエリア： モデルの学習済みチェックポイントの選択や、プロンプトを入力するエリア。また、text2imgなどのツールの切り替え、設定の変更のタブがあります。

生成パラメーターエリア： サンプリング方法や、生成画像の大きさ、ステップやCFGなどの生成に必要なパラメーターを設定するエリアです。またタブの切り替えによりLoraやEmbeddingの呼び出し等もできます。

生成ボタンエリア： 「Generate」ボタンのほかにプロンプトの読み込みプリセットの管理ができます。

Previewエリア： 生成された画像のプレビューや生成画像をImg2imgなどに送るショートカットボタン類があります。

チェックポイント・プロンプトエリアについて

チェックポイント・プロンプトエリアの画像

チェックポイント： モデルの学習済みチェックポイントを選択します。

ページ切り替えタブ： 「text2img」や設定・エクステンションの管理ページに切り替えます。

プロンプト： 生成したい画像の特徴を記述します。

ネガティブプロンプト： 生成したくない画像の特徴を記述します。

生成パラメーターエリアについて

生成パラメーターエリアの画像

Sampling method： サンプラーの種類を選択します。（v1.9.0でスケジュールタイプが選択できるようになりました。）

Sampling steps： サンプリングステップの回数を設定します。

Hires. Fix： 高解像度画像を生成するかどうかを選択します。

Refiner： Refinerは、主にSDXLのセカンドステージを組み込む際につかいます。

Width： 生成画像の幅を設定します。

Height： 生成画像の高さを設定します。

Batch count： 出力する生成画像の枚数を設定します。

Batch size： 一回の出力で同時に生成する画像の枚数を設定します。

CFG Scale： プロンプトにどれだけ忠実に画像を生成するかを設定します。

Seed： シード値（生成の種のようなもの）をランダムにしたり任意の数値を入力したりします。「🎲️」ボタンでランダム/「♻️」ボタンで前回のシードを呼び出し/「Extra」でさらに細かいSeed設定ができます。

Script： X/Y/Z plot等のスクリプトを呼び出します。

生成ボタンエリアについて

生成ボタンエリアの画像

Generateボタン： 画像の生成を開始したり、一時停止・キャンセルをするボタン

リロードボタン： キャッシュに残っている前回の設定を呼び出します。

消去ボタン： プロンプト・ネガティブプロンプトを消去します。

スタイル適応ボタン： 適応中のスタイルをプロンプト・ネガティブプロンプトに書き出します。

スタイル編集ボタン： プロンプト・ネガティブプロンプトをプリセットとして保存・呼び出しをします。

プレビューエリアについて説明

プレビューエリアの画像

プレビュー： 生成された画像が表示されます。

出力フォルダボタン： 出力された画像が入っているフォルダーがファイルエクスプローラーで開きます。

画像の保存ボタン： プレビューで選択した画像を保存します。

画像のzip保存ボタン： プレビューに表示されている画像すべてをzip形式でを圧縮保存します。

img2imgへ送るボタン： プレビューで選択した画像をimg2imgにプロンプトや設定と共に送ります。

img2img inpaintへ送るボタン： プレビューで選択した画像をimg2imgのinpaintにプロンプトや設定と共に送ります。

Extrasへ送るボタン： プレビューで選択した画像をExtrasに送ります。

Hires.Fixボタン： プレビューで選択した画像を現在の設定でHires.Fixで高解像度化します。

プレビューエリアのメタデータの画像

プレビュー画像が表示されるとプレビューエリアの下部に画像のメタデータが表示されます。

プロンプトの基本構造

プロンプトは、AIが生成する画像の特徴を簡潔かつ明確に伝えるためのテキストです。具体的なキーワードやフレーズを用いて、AIに対して正確な指示を与えることが重要です。

例：黒髪の少女の画像生成　街頭に立つ黒髪の少女の画像を生成したい場合、以下のようにプロンプトを記述します。

Danbooruスタイル：

1girl, black_hair, standing, street, front_view

自然言語スタイル：

A girl with black hair standing on the street, viewed from the front.

プロンプトスタイルの選択

プロンプトには、主に2つのスタイルがあります。

Danbooruスタイル：キーワード（タグ）をコンマで区切って列挙します。
自然言語スタイル：より自然な文章形式で記述します。

これらのスタイルを組み合わせることも可能です。異なる単語やフレーズの組み合わせによって、AIはさまざまな画像を生成します。そのため、さまざまなプロンプトを試して、最適な結果を見つけることをオススメします。

プロンプトの最適化

良いプロンプトを書くには、以下の点に注意しましょう。

明確性：生成したい画像の特徴を明確に伝える。
簡潔性：不要な情報は省略し、必要なキーワードに焦点を当てる。
バリエーション：異なるスタイルや表現を試し、AIの反応を観察する。

ネガティブプロンプトの書き方

ネガティブプロンプトは、生成したくない画像の特徴を記述するテキストです。生成される画像に含まれてほしくない要素を指定します。プロンプトスタイルはDanbooruスタイルで記述しましょう。

たとえば先ほど紹介したプロンプトをネガティブプロンプトを空白にしたまま生成するとバランスの崩れた人物が生成されることがあります。このような生成を避けるためにネガティブプロンプトに含めたくないプロンプトを入れていきます。

worst, ugry, deformed,

worst（最低）, ugry（醜い）, deformed（変形）の様なネガティブプロンプトを入れくことによって生成の品質が上がってきます。

Sampling stepsについて

Sampling stepsの比較

一般的には「Sampling steps」が大きければ大きいほど画像の品質が上がるといわれていますが、むやみに数値を上げるだけでは生成時間が長くなります。時間と品質のバランスを考えて数値を決めましょう。参考までに上の画像でSteps: 30とSteps: 70を比較してもほとんど変化が現れていません。

慣れるまでは25～45辺りで生成しましょう。

サンプリングメソッドとノイズスケジュールについて

サンプリングメソッド

画像を生成する過程で、Stable Diffusionは初めに潜在空間（例：512ｘ512ドット）の空間において完全にランダムな画像を作り出します。続いて、predicted noise（ノイズ予測）がその画像のノイズを推定し、予測されたノイズは画像から差し引かれます。この一連のプロセスは数10回にわたって繰り返され、最終的には、クリアな画像が生成されます。

このノイズを取り除く過程は、Stable Diffusionが各ステップごとに新しいサンプル画像を生成するため、サンプリングと称されます。サンプリングに用いられる手法は、サンプラーあるいはサンプリング手法と呼ばれます。

下記によく使われているメソッドとステップの組み合わせの一例を挙げておきます。

メソッドとステップの組み合わせ　スピード重視の比較

スピード重視

DPM++ 2M Karras: 20～30ステップ
UniPC: 20～30ステップ

メソッドとステップの組み合わせ　品質重視の比較

品質重視

DPM++ SDE Karras: 10～15ステップ
DDIM: 10～15ステップ

チェックポイントモデルによって推奨している設定が説明されているのでそれを参考にするのも良いと思います。

スケジュールタイプ（ノイズスケジュール）について

スケジュールタイプの比較

「ノイズスケジュール」とはノイズの除去をステップごとに増やしていき最終的にノイズをゼロにする曲線比率の事です。

ノイズスケジュールのタイプによって最初のステップのもっとも多いノイズ量から最終ステップのノイズ0状態までの減衰カーブが変わります。

バージョン1.90では、デフォルトスケジュール以外のスケジュールも適用できるようになりました。初心者の方は「Automatic」を選択することで、サンプリングメソッドのデフォルトスケジュールが自動的に選択されます。

CFG Scaleについて

CFG Scaleの比較

「CFG Scale (classifier-free guidance scale)」とはプロンプトにどれだけ忠実に画像を生成するかを調整する値になります。

CFG Scaleの値が大きければプロントに近い画像を生成しますが、高すぎると画像が歪んできます。また数値が小さすぎると画像が荒くなっていきますが画像品質は上がっていきます。このバランスを見ながら値を決めていきます。

モデルや生成したい画像のスタイルにもよりますが慣れるまでは5～9辺りで生成しましょう。

Hires. Fixについて

Upscalerの比較 — Hires steps: 10, Denoising strength: 0.5, Hires upscale: 2

「Hires. Fix」は生成された画像を元にさらにディテールを加えながら解像度をあげていきます。チェックボックスをオンにするとすべての生成でHires. Fixが適応されます。

Hires. Fixエリアの画像

Upscaler： アップスケーラーを選択します。イラスト系の場合は、Latent / R-ESRGAN 4x+ / R-ESRGAN 4x+ Anime6B 辺りが一般的に使われています。

Hires steps： 元画像のSampling StepよりさらにStepを追加してディテールを追加します。たとえばSampling Stepが20でHiRes stepsが20だとトータルで40ステップとなります。10～15辺りが使いやすいです。Sampling Stepが50を超える場合はHiRes stepsをその半分にすると良いでしょう。

Denoising strength： 0に近いほど元画像に近い画像になります。0.3～0.5辺りがおススメです。

Upscale by： 拡大率を入力します。

Resize width to/Resize height to： 幅と高さ任意にしたい場合はこちらに入力してください。

Refinerについて

Refinerエリアの画像

「Refiner」は、SDXLモデルの生成時に画像を微調整するためのツールです。生成された画像に対して、さらなる調整や改善を行いたい場合にチェックボックスをオンにして使用します。

Checkpoint： Refinerに使うモデルを選択します。

Switch at： 生成のどの段階から切り替えるかの比率を入力します。1=切り替えない 0.5=半分の段階で切り替え。

さらに詳しくリファイナーの使い方を知りたい方は下記の記事を参考にしてください。

StableDiffusion webUI SDXLモデルの使い方の基本#SDXLモデルの使い方-Refinerの活用方法のメイン画像

StableDiffusion webUI SDXLモデルの使い方の基本#SDXLモデルの使い方-Refinerの活用方法

🔗あわせて読みたい

Clip Skipについて

Clip Skipの比較

「Clip Skip」は、Stable Diffusion Web UIにおいて、入力したプロンプトをどれだけ正確に反映させるかを設定する指標で1～12の値が使えます。具体的には、以下のような特性があります。

値が小さい場合：プロンプトどおりのイラストが生成される。
値が大きい場合：プロンプトを無視したイラストが生成される。

Clip skipの設定はモデルごとに適正値が異なります。自分が使用したいモデルのダウンロードページを参照して、推奨されているClip skipの値を確認しましょう。一般的には、Clip skipを2から始めて、プロンプトが画像にうまく反映されない場合は値を1に変更すると、うまくいく可能性が高まります。

Clip skipと「CFG scale」の違い

Stable Diffusionには、画像にプロンプトをどの程度影響させるかを指定する「CFG scale」という設定もあります。Clip skipとCFG scaleは両方ともプロンプトに作用する設定ですが、根本的な違いが存在します。

Clip skip：

プロンプトの解釈段階による違いに基づいて画像を生成する設定。
中途半端に生成された画像の中から、望む結果を選び出すことができる。
通常は1か2を使用。

CFG scale：

すべての層に一定の理解度を与えつつ、プロンプトの影響力はAIに委ねる設定。
呪文（プロンプト）の解釈をAIの裁量に任せて画像を生成する。

Clip skipとCFG scaleを調整することで、プロンプトに対して理想的な画像を生成させるバランスを調整できます。自分の好みやモデルに合わせて設定を調整してみてください。

Clip skipの有効化方法

Clip skipの有効化方法の説明画像

Stable Diffusion web UIのインストール初期状態では「Clip skip」を使うことができません。以下の方法で有効化しましょう。

設定を開く： チェックポイント・プロンプトエリアにある「Settings」タブを開きます。

ユーザーインターフェースの選択： 左側のメニューから「User Interface」を選択してください。

クイック設定リストのアクセス： 画面上部から2番目に位置する「[info] Quicksettings list」をクリックします。

Clip skipの設定： 表示された検索ボックスにCLIP_stop_at_last_layersと入力し、検索結果から該当する項目を選択します。

CLIP_stop_at_last_layers

設定の適用： 選択後、「Apply Settings」ボタンをクリックします。

UIの再起動： 「Reload UI」を押して、ユーザーインターフェースを再起動します。

Clip skipの確認の画像

Clip skipの確認： 再起動後、「Stable Diffusion checkpoint」の右側に「Clip skip」が表示されていれば、設定が完了しています。

画像の生成

設定したパラメーターに基づいて、「Generate」ボタンをクリックまたはCtrl+Enterで画像生成を開始します。生成された画像は、プレビューエリア表示され、保存できます。

生成の中断とスキップ

生成中はボタンが「Interrupt｜Skip」となりますので生成の中断とスキップができます。

生成の中断：「Interrupt」をクリックすると「Interrupting…」に変わるのでもう一度クリックで生成の中断ができます。
生成のスキップ：生成の「Batch count」が2以上の時に押すと現在の生成を終了して次のバッチに移行します。

自動生成

「Generate」ボタン右クリックすると「Generate forver | Cancel Generate forver」が選択できるので「Generate forver」を選択すると自動生成が開始されます。自動生成中に「Cancel Generate forver」を選択すれば自動生成が終了します。

画像の生成を繰り返していると「outputs」フォルダーstable-diffusion-webui > outputsに大量の画像が溜まっていきます。（プレビューエリアの📂ボタンを押すと書き出し先のフォルダーが開きます。）このフォルダーをこまめに管理することををお忘れなく。

まとめ

本記事では、Stable Diffusion web UIのtext2img機能を用いたAI画像生成の基本的な手順を詳しく解説しました。このガイドを参考にすれば、AIを活用した画像生成の世界への第一歩を踏み出すことができるでしょう。

Stable Diffusion web UIは、直感的な操作性と高度なカスタマイズ性を兼ね備えたツールであり、ユーザーが独自のクリエイティブなビジョンを実現するための強力なサポートを提供します。text2img機能を駆使することで、テキストからビジュアルアートへと想像を具現化できます。

今回のガイドが皆さんのデジタルクリエイティブに役立つことを願っています。

PR

🔍Illust Booksfrom Amazon

1

「ほしい」が見つかる素材集完全版イラストカット大事典15000 (デジタル素材BOOK)の商品画像

「ほしい」が見つかる素材集完全版イラストカット大事典15000 (デジタル素材BOOK)

ASIN:4295015911

Amazonで見る

2

僕のヒーローアカデミア公式イラスト集 Ultra Artworks (愛蔵版コミックス)の商品画像

僕のヒーローアカデミア公式イラスト集 Ultra Artworks (愛蔵版コミックス)

ASIN:4087926214

Amazonで見る

3

エヴァンゲリオンイラスト集II 2017-2025の商品画像

エヴァンゲリオンイラスト集II 2017-2025

ASIN:4909466134

Amazonで見る

4

映え構図センスに頼らず思い通りのイラストを描く方法 (いちあっぷブックス)の商品画像

映え構図センスに頼らず思い通りのイラストを描く方法 (いちあっぷブックス)

ASIN:4434356976

Amazonで見る

5

箱庭世界 -小さな空想の世界を描くイラストレーターズファイル-の商品画像

箱庭世界 -小さな空想の世界を描くイラストレーターズファイル-

ASIN:4756255094

Amazonで見る

6

ブルーアーカイブオフィシャルアートワークス: 3の商品画像

ブルーアーカイブオフィシャルアートワークス: 3

ASIN:B0FF9F5SWG

Amazonで見る

7

VISIONS 2025 ILLUSTRATORS BOOKの商品画像

VISIONS 2025 ILLUSTRATORS BOOK

ASIN:4046841079

Amazonで見る

8

毒かわいいわたしたち -DARK POP ILLUSTRATION-の商品画像

毒かわいいわたしたち -DARK POP ILLUSTRATION-

ASIN:4046846267

Amazonで見る

9

川口イッサおんなのこイラストポーズ集　自然でかわいい日常ポーズ350の商品画像

川口イッサおんなのこイラストポーズ集　自然でかわいい日常ポーズ350

ASIN:B0CW1NQ5NZ

Amazonで見る

10

VISIONS 2023 ILLUSTRATORS BOOKの商品画像

VISIONS 2023 ILLUSTRATORS BOOK

ASIN:4046816376

Amazonで見る

カテゴリー：📂 AIイラスト初級

タグ：🏷️ AUTOMATIC1111 🏷️ text2image

Supported by