Stable Diffusion web UI v1.9.0 の基本的な使い方 Text-to-image編
Stable Diffusionの基本
Stable Diffusionは、テキストから高品質な画像を生成するAIツールです。以下に、その基本プロセスを分かりやすく説明します。
【Amazon.co.jp限定】ASUS フレームレス モニター VZ249HR 23.8インチ/フルHD/IPS/薄さ7mm/ブルーライト軽減/フリッカーフリー/HDMI,D-sub/スピーカー/3年保証
ASIN:B07LH1ZDSL
【Amazon.co.jp限定】Dell ハイスペック 23.8インチ ホワイトモニター(5年保証/FHD/IPS,非光沢/縦横回転,高さ調整/5Wx2スピーカー/HDMIx2) S2425HS-A
ASIN:B0CXXC87JK
【Amazon.co.jp限定】アイリスオーヤマ モニター 24インチ スピーカー内蔵 VAパネル HDMI VGA 角度調整可能 FHD 1920x1080 100Hz 14ms ブルーライト軽減 フレームレス VESA対応 DT-GF233R-B
ASIN:B0CYPWXXWM
【Amazon.co.jp限定】MSI モニター PRO MP2412 23.8インチ/フルHD/VAパネル/100Hz/1ms/ブルーライトカット/アンチフリッカー/HDMI/DP/VESA対応/メーカー3年保証
ASIN:B0CDBS93QZ
HP モニター V27ie G5 27インチ フルHD 75Hz 5ms IPSパネル 非光沢 HDMI DisplayPort VGA AMD FreeSync 角度調整ブルーライトカット 薄型ベゼル(型番:6D8H3AA-AAAB)
ASIN:B0CFXKRGN8
【整備済み品】 Dell モニター 21.5インチ E2216H(CIE1976 85%/フルHD/TN非光沢/フリッカーフリー/DP,D-Sub15ピン) (整備済み品)
ASIN:B09247VLC7
【Amazon.co.jp限定】ASUS ゲーミングモニター 165Hz 24.5インチ モニター TN FHD 0.5ms HDMI1.4 DisplayPort1.2 DVI-D スピーカー 高さ調整 縦横回転 VG258QR-J
ASIN:B0813TDWJB
PHILIPS 液晶ディスプレイ PCモニター 272E2FE/11 (27インチ/5年保証/FHD/IPS/D-Sub 15,HDMI,Display Port/昇降・高さ調節/チルト/4面フレームレス/FreeSync(HDMI,DP)ちらつき防止/ブルーライト軽減)
ASIN:B08PTSY9PL
Dell SE2222H 21.45インチ モニター ディスプレイ (3年間交換保証/FHD/VA 非光沢/HDMI D-Sub15ピン/傾き調整)
ASIN:B095749V5V
- ユーザーは、生成したい画像の内容を簡潔なテキスト(プロンプト)として入力します。
- このプロンプトは、AIが画像を生成する際の指示となります。
- AIはまず、ランダムノイズを画像に加えます。
- 次に、このノイズを徐々に除去していき、プロンプトに基づいた画像を「生成」します。
- AIは、大まかなイメージから始めて、徐々に細かいディテールを加えていきます。
- このプロセスを通じて、プロンプトに合った画像が形成されます。
- 生成された画像はユーザーによって確認され、必要に応じて調整が行われます。
- プロンプトを変更することで、異なる結果を得ることができます。
- Stable Diffusionには、画像のクオリティを向上させるための拡張機能があります。
- LoRAやControlNETなどのツールを使用して、さらに詳細な画像を生成することが可能です。
インターフェイスの説明
Automatic1111のStable Diffusion web UIは、初心者でも簡単に使えるように設計されています。
各エリアについて
チェックポイント・プロンプトエリアについて
生成パラメーターエリアについて
生成ボタンエリアについて
プレビューエリアについて説明
プレビュー画像が表示されるとプレビューエリアの下部に画像のメタデータが表示されます。
プロンプトの基本構造
プロンプトは、AIが生成する画像の特徴を簡潔かつ明確に伝えるためのテキストです。具体的なキーワードやフレーズを用いて、AIに対して正確な指示を与えることが重要です。
例:黒髪の少女の画像生成 街頭に立つ黒髪の少女の画像を生成したい場合、以下のようにプロンプトを記述します。
-
Danbooruスタイル:
1girl, black_hair, standing, street, front_view
-
自然言語スタイル:
A girl with black hair standing on the street, viewed from the front.
プロンプトスタイルの選択
プロンプトには、主に2つのスタイルがあります。
- Danbooruスタイル:キーワード(タグ)をコンマで区切って列挙します。
- 自然言語スタイル:より自然な文章形式で記述します。
これらのスタイルを組み合わせることも可能です。異なる単語やフレーズの組み合わせによって、AIはさまざまな画像を生成します。そのため、さまざまなプロンプトを試して、最適な結果を見つけることをオススメします。
プロンプトの最適化
良いプロンプトを書くには、以下の点に注意しましょう。
- 明確性:生成したい画像の特徴を明確に伝える。
- 簡潔性:不要な情報は省略し、必要なキーワードに焦点を当てる。
- バリエーション:異なるスタイルや表現を試し、AIの反応を観察する。
ネガティブプロンプトの書き方
ネガティブプロンプトは、生成したくない画像の特徴を記述するテキストです。生成される画像に含まれてほしくない要素を指定します。プロンプトスタイルはDanbooruスタイルで記述しましょう。
たとえば先ほど紹介したプロンプトをネガティブプロンプトを空白にしたまま生成するとバランスの崩れた人物が生成されることがあります。このような生成を避けるためにネガティブプロンプトに含めたくないプロンプトを入れていきます。
worst, ugry, deformed,
worst(最低), ugry(醜い), deformed(変形)の様なネガティブプロンプトを入れくことによって生成の品質が上がってきます。
Sampling stepsについて
一般的には「Sampling steps」が大きければ大きいほど画像の品質が上がるといわれていますが、むやみに数値を上げるだけでは生成時間が長くなります。時間と品質のバランスを考えて数値を決めましょう。参考までに上の画像でSteps: 30とSteps: 70を比較してもほとんど変化が現れていません。
慣れるまでは25~45辺りで生成しましょう。
サンプリングメソッドとノイズスケジュールについて
サンプリングメソッド
画像を生成する過程で、Stable Diffusionは初めに潜在空間(例:512x512ドット)の空間において完全にランダムな画像を作り出します。続いて、predicted noise(ノイズ予測)がその画像のノイズを推定し、予測されたノイズは画像から差し引かれます。この一連のプロセスは数10回にわたって繰り返され、最終的には、クリアな画像が生成されます。
このノイズを取り除く過程は、Stable Diffusionが各ステップごとに新しいサンプル画像を生成するため、サンプリングと称されます。サンプリングに用いられる手法は、サンプラーあるいはサンプリング手法と呼ばれます。
下記によく使われているメソッドとステップの組み合わせの一例を挙げておきます。
スピード重視- DPM++ 2M Karras: 20~30ステップ
- UniPC: 20~30ステップ
- DPM++ SDE Karras: 10~15ステップ
- DDIM: 10~15ステップ
チェックポイントモデルによって推奨している設定が説明されているのでそれを参考にするのも良いと思います。
スケジュールタイプ(ノイズスケジュール)について
「ノイズスケジュール」とはノイズの除去をステップごとに増やしていき最終的にノイズをゼロにする曲線比率の事です。
ノイズスケジュールのタイプによって最初のステップのもっとも多いノイズ量から最終ステップのノイズ0状態までの減衰カーブが変わります。
バージョン1.90では、デフォルトスケジュール以外のスケジュールも適用できるようになりました。初心者の方は「Automatic」を選択することで、サンプリングメソッドのデフォルトスケジュールが自動的に選択されます。
CFG Scaleについて
「CFG Scale (classifier-free guidance scale)」とはプロンプトにどれだけ忠実に画像を生成するかを調整する値になります。
CFG Scaleの値が大きければプロントに近い画像を生成しますが、高すぎると画像が歪んできます。また数値が小さすぎると画像が荒くなっていきますが画像品質は上がっていきます。このバランスを見ながら値を決めていきます。
モデルや生成したい画像のスタイルにもよりますが慣れるまでは5~9辺りで生成しましょう。
Hires. Fixについて
「Hires. Fix」は生成された画像を元にさらにディテールを加えながら解像度をあげていきます。チェックボックスをオンにするとすべての生成でHires. Fixが適応されます。
Refinerについて
「Refiner」は、SDXLモデルの生成時に画像を微調整するためのツールです。生成された画像に対して、さらなる調整や改善を行いたい場合にチェックボックスをオンにして使用します。
さらに詳しくリファイナーの使い方を知りたい方は下記の記事を参考にしてください。
Clip Skipについて
「Clip Skip」は、Stable Diffusion Web UIにおいて、入力したプロンプトをどれだけ正確に反映させるかを設定する指標で1~12の値が使えます。具体的には、以下のような特性があります。
- 値が小さい場合:プロンプトどおりのイラストが生成される。
- 値が大きい場合:プロンプトを無視したイラストが生成される。
Clip skipの設定はモデルごとに適正値が異なります。自分が使用したいモデルのダウンロードページを参照して、推奨されているClip skipの値を確認しましょう。一般的には、Clip skipを2から始めて、プロンプトが画像にうまく反映されない場合は値を1に変更すると、うまくいく可能性が高まります。
Clip skipと「CFG scale」の違い
Stable Diffusionには、画像にプロンプトをどの程度影響させるかを指定する「CFG scale」という設定もあります。Clip skipとCFG scaleは両方ともプロンプトに作用する設定ですが、根本的な違いが存在します。
Clip skip:- プロンプトの解釈段階による違いに基づいて画像を生成する設定。
- 中途半端に生成された画像の中から、望む結果を選び出すことができる。
- 通常は1か2を使用。
- すべての層に一定の理解度を与えつつ、プロンプトの影響力はAIに委ねる設定。
- 呪文(プロンプト)の解釈をAIの裁量に任せて画像を生成する。
Clip skipとCFG scaleを調整することで、プロンプトに対して理想的な画像を生成させるバランスを調整できます。自分の好みやモデルに合わせて設定を調整してみてください。
Clip skipの有効化方法
Stable Diffusion web UIのインストール初期状態では「Clip skip」を使うことができません。以下の方法で有効化しましょう。
CLIP_stop_at_last_layers
と入力し、検索結果から該当する項目を選択します。
CLIP_stop_at_last_layers
画像の生成
設定したパラメーターに基づいて、「Generate」ボタンをクリックまたはCtrl+Enter
で画像生成を開始します。生成された画像は、プレビューエリア表示され、保存できます。
生成の中断とスキップ
生成中はボタンが「Interrupt|Skip」となりますので生成の中断とスキップができます。
- 生成の中断:「Interrupt」をクリックすると「Interrupting…」に変わるのでもう一度クリックで生成の中断ができます。
- 生成のスキップ:生成の「Batch count」が2以上の時に押すと現在の生成を終了して次のバッチに移行します。
自動生成
「Generate」ボタン右クリックすると「Generate forver | Cancel Generate forver」が選択できるので「Generate forver」を選択すると自動生成が開始されます。自動生成中に「Cancel Generate forver」を選択すれば自動生成が終了します。
画像の生成を繰り返していると「outputs」フォルダーstable-diffusion-webui > outputs
に大量の画像が溜まっていきます。(プレビューエリアの📂ボタンを押すと書き出し先のフォルダーが開きます。)このフォルダーをこまめに管理することををお忘れなく。
まとめ
本記事では、Stable Diffusion web UIのtext2img機能を用いたAI画像生成の基本的な手順を詳しく解説しました。このガイドを参考にすれば、AIを活用した画像生成の世界への第一歩を踏み出すことができるでしょう。
Stable Diffusion web UIは、直感的な操作性と高度なカスタマイズ性を兼ね備えたツールであり、ユーザーが独自のクリエイティブなビジョンを実現するための強力なサポートを提供します。text2img機能を駆使することで、テキストからビジュアルアートへと想像を具現化できます。
今回のガイドが皆さんのデジタルクリエイティブに役立つことを願っています。