DCAI
Loading Light/Dark Toggl

Stable Diffusion web UI チェックポイントモデルの使い方

⏱️7min read
📅 2024年4月20日
🔄 2024年7月24日
カテゴリー:📂 生成AI初級
Stable Diffusion web UI チェックポイントモデルの使い方のメイン画像
Supported by

Stable Diffusionモデルについて

Stable Diffusionモデル、またはチェックポイントモデルは、特定のスタイルの画像を生成するために事前にトレーニングされたデータです。

モデルが生成する画像の種類は、トレーニング画像に依存します。トレーニングデータに猫の画像が一切含まれていなければ、モデルは猫の画像を生成することはできません。同様に、もしモデルを猫の画像のみで訓練した場合、それは猫の画像のみを生成するでしょう。

PR
先読み!IT×ビジネス講座 画像生成AIの商品画像
先読み!IT×ビジネス講座 画像生成AI
🔗Amazonリンク
GIGABYTE NVIDIA GeForce RTX4090搭載 グラフィックボード GDDR6X 24GB【国内正規代理店】 GV-N4090AORUSX W-24GDの商品画像
GIGABYTE NVIDIA GeForce RTX4090搭載 グラフィックボード GDDR6X 24GB【国内正規代理店】 GV-N4090AORUSX W-24GD
🔗Amazonリンク

モデルを探すには🔗Cibitai🔗Hugging Face等でお好みのモデルを探します。

Civitai

CibitaiはAIアートの発展とユーザーの交流を目的に2022年より始まったサービスで、Stable Diffusionで利用できるモデルをダウンロードするプラットフォームです。モデルのダウンロード以外にもAIアートや記事の投稿、オンサイトでの画像生成・Loraの学習等のサービスが提供されています。ホームページもサムネイル付きの一覧で見やすくなっており初心者の方にはコチラをおススメします。

Cibitai-モデルのダウンロード方法

Cibitai-モデルのダウンロード方法の説明画像
Aitasai/Dark Sushi Mixモデルのページ
画像を開く

Aitasai氏のDark Sushi Mixモデルを参考に説明します。※このモデルは後ほど詳しく紹介します。

バージョンの選択: チェックポイントモデルに複数バージョンがある場合はコチラから選択できます。
モデルのダウンロード: コチラのボタンよりダウンロードが出来ます。モデルによってはアカウント(無料)が必要な場合があります。

Hugging Face (Hugging Face Hub)

Hugging Face (Hugging Face Hub)はHugging Face, Inc.が2022年より始めたGitベースのホスティングサービスです。モデルのダウンロード以外にもテキスト・画像や音楽のデータセットが共有されています。ホームページはCivitaiと比べるとより専門的になっており初心者の方にはあまり向いていません。

Hugging Face-モデルのダウンロード方法

Cibitai-モデルのダウンロード方法の説明画像
Vsukiyaki/ShiratakiMixモデルのページ
画像を開く

ここでは🔗Vsukiyaki氏🔗ShiratakiMixを例として説明します。

ファイルの選択: 「Files and Versions」タブよりファイルリストページを開きます。
モデルのダウンロード: リストより目的のファイル名を探してダウンロードボタンよりダウンロード。.ckpt.safetensorsファイルがある場合は.safetensorsの方をダウンロードしましょう。

モデルファイルには.ckpt.safetensorsと言うファイルが存在します。もともとモデルファイルは.ckpt形式で共有されていましたが.ckptファイルには悪意のあるコードを埋め込めるという問題がありました。そこでHugging Faceがより安全で早い.safetensors開発しました。すべての.ckptが危険という訳ではありませんが特に理由がない場合は.safetensorsを使いましょう。

チェックポイントモデル紹介

参考までにこの記事のトップ画像の生成に使ったのチェックポイントモデルです。

  • 作者:🔗Aitasai
  • ダウンロード:1.99 GB
  • アップロード:2023/6/11
  • ファイル形式:SafeTensor
  • Base Model:SD 1.5
  • 推奨VAE:🔗vae-ft-mse-840000-ema ※この記事ではVAEの使い方は説明していません。
  • Hires. Fix推奨

また、下記の記事ではおすすめチェックポイントを紹介しています。

チェックポイントモデルのインストール方法

チェックポイントモデルをStable Diffusion web UIで使用するにはダウンロードしてきたdarkSushiMixMix_225D.safetensorsファイルを\stable-diffusion-webui\models\Stable-diffusionフォルダーに移動します。

チェックポイントモデルのインストール場所
フォルダにはPut Stable Diffusion checkpoints here.txtファイルが置いております。
画像を開く

ブラウザに戻り左上のチェックポイントモデルの選択タブの横の「🔄」ボタンを押します。

更新が完了するとタブより先ほどフォルダーに移動したチェックポイントモデルが表示されるので選択して読み込みます。

チェックポイントモデルの使い方

試しに下記のプロンプトをペーストしてみましょう。

(ultra art illustrated style, masterpiece:1.3), ultra detailed, dutch_angle,
1girl, beautiful face,
(medival, mage:1.1), hill_side, blue_sky,horizon

ネガティブプロンプトにも下記のプロンプトをペーストしてみましょう。

(worst quality:2.0), (low quality:2.0), (normal quality:2.0), lowres

設定は以下の通り入力して「Generate」ボタンを押してください。

  • Sampling method: DPM++ SDE
  • Schedule type: Karras
  • Sampling steps: 35
  • Width: 768
  • Height: 512
  • CFG Scale: 5
  • Seed: 2454522269
  • Batch count: 1
  • Batch size: 1

ファンタジー風の女の子が生成されたと思いますが、解像度が768×512なので少しラフな感じがしますよね。そこで「Hires. Fix」を使いさらにデティールを増やしてみましょう。

「Hires. Fix」のチェックボックスをオフのままにして設定を下記のようにします。

  • Upscaler:R-ESRGAN 4x+
  • Hires steps:15
  • Denoising strength:0.3
  • Upscale by:2
  • Resize width to:0
  • Resize height to:0

「Generate」ボタンを押してお気に入りの画像が出てきたらプレビュー画像の下に並んでいる一番右側の✨ボタンを押すとその画像にHires. Fixを適応してくれます。

サンプル画像Hires適応後
Hires. Fix適応後
画像を開く

ベースモデルについて

「ベースモデル」には、SD1.5とSDXLの2つの主要なバージョンがあります。以下にそれぞれの特徴を説明します。

SD1.5

  • 学習ベースの解像度:512×512ドット
  • テキストエンコーダー:Open AI CLIP ViT-L/14
  • 主な特徴:SD1.5は、比較的低い解像度で画像生成を行います。プロンプトの記述方法が直感的であり、扱いやすい一方で、生成される画像の細部には限界があります。

SDXL

  • 学習ベースの解像度:1,024×1,024ドット
  • テキストエンコーダー:OpenClip model (ViT-G/14) & OpenAI proprietary CLIP ViT-L.
  • 主な特徴:
    • 高いプロンプトの理解力:テキストエンコーダーにOpenClip modelが加えられたことによりさらにプロンプトの理解力が向上。
    • 高い処理能力:より大きく複雑な画像生成タスクに対応できます。
    • 高品質の画像:リアリズムとディテールのレベルが向上しており、非常に高解像度の画像を生成できます。
    • 速度:以前のモデルよりも高速に作業し、画質を損なうことなく画像生成にかかる時間を短縮します。

PrunedとFullとEMA-onlyモデルの違いについて

  • Pruned Model:モデル学習の完了後にプルーニングされ、冗長な部分を取り除いた軽量モデル。リソースが限られた環境や高速な生成が必要な場合に使います。
  • Full Model:軽量化される前のモデル。学習したすべての情報を持っているため精度に優れています。
  • EMA-only Model:Pruned Modelと似ていますが、学習中の最終数ステップにノイズの平滑化を適応させているモデル。データが軽量化された上に精度の安定した画像生成をすることが出来ます。

Fp16とFp32について

モデルデータにはFp16またはFp32と表示されています。「Fp」はFloating point(浮動小数点)の略でFp16はメモリ使用量を削減し、計算速度を向上させることができるため、リソースが限られている環境や、高速な処理が求められるアプリケーションで利用されます。一方、Fp32はより高い精度が必要な場合や、大規模なデータセットを扱う場合に適しています。

チェックポイントモデルデータは非常に大きなファイルになり、モデルデータを色々と試しているとストレージを圧迫していきます。特にこだわりが無い場合は、PlunedのFp16をダウンロードしましょう。

まとめ

この記事では、Stable DiffusionのWeb UIにおけるチェックポイントモデルの使い方を詳しく解説しました。Stable Diffusionモデルを使用することで、生成される画像のスタイルを効果的にコントロールできます。また、モデルは定期的にアップデートされており、新しいバージョンが追加されているため、常に最新の技術を活用できます。チェックポイント以外にも、Lola、Textual inversions (embedding)、VAE、Hypernetworksなど、さまざまな機能が存在しますが、それらについては別の機会に詳しく紹介したいと思います。

PR
大規模言語モデルを使いこなすためのプロンプトエンジニアリングの教科書の商品画像
大規模言語モデルを使いこなすためのプロンプトエンジニアリングの教科書
🔗Amazonリンク
mouse 【3年保証】 クリエイター デスクトップPC DAIV FX(Core i9-14900KF RTX 4080 SUPER 64GBメモリ 2TB SSD Windows 11 4K動画編集 3DCG) FXI9G8SB6SKW1103AZの商品画像
mouse 【3年保証】 クリエイター デスクトップPC DAIV FX(Core i9-14900KF RTX 4080 SUPER 64GBメモリ 2TB SSD Windows 11 4K動画編集 3DCG) FXI9G8SB6SKW1103AZ
🔗Amazonリンク
Supported by