Stability AIは10月23日に「Stable Diffusion 3.5」を発表しました。
- どのぐらいのスペックが必要なのか分からない
- 「Medium」をローカルで使ってみたい
- 他の画像生成サービスと何が違うの?
この記事では、そのような悩みについて解決します。
ぜひ、ご覧ください。
Stable Diffusion 3.5 とは?
性能
「Stable Diffusion 3.5」と「Stable Diffusion 3.0」のモデルを比べてみると、
「Prompt Adherence(プロンプト順守)」と「Aesthetic Quality(美的クオリティ)」が、
全てにおいて上回っています。
他の画像生成AIモデルと比べてみます。
「Stable Diffusion 3.5」と「FLUX.1 dev」では、
「Prompt Adherence(プロンプト順守)」は優れているが、
「Aesthetic Quality(美的クオリティ)」は劣っているという結果になりました。
スペック
「Stable Diffusion 3.5 Medium」は、2.5B(25億パラメータ)のモデルであり、
「NVIDIA GeForce RTX 3080」以上が推奨されています。
「Stable Diffusion 3.5 Large」は、8.1B(80億パラメータ)のモデルであり、
「NVIDIA GeForce RTX 3090」以上が推奨されています。
筆者の「NVIDIA GeForce RTX 3060 ti」で実際に確認してみたところ、
「Medium」で、ギリギリ動くかなといった感じでした。
ただ、「Medium」の読み込みや生成に時間がかかり、
フリーズすることもありました。
「Stable Diffusion 3.5」を、ローカルで動かすのであれば。
ハイスペックなパソコンを使うか、「Google Colabo Pro」で動かすのが、
現実的かと思います。
実際に「Google Colabo Pro」を使って確認してみたところ、
「Large」と「Medium」の両方とも問題なく動作しました!
インストール
「Stable Diffusion 3.5」は「Comfyui」の公式のやり方に沿って説明します。
①テキストエンコーダーをダウンロードする
まずは、テキストエンコーダをダウンロードします。
以下の「Hugging Face」にアクセスしてください。
ダウンロードするテキストエンコーダは以下の3つです。
- clip_l.safetensors
- clip_g.safetensors
- t5xxl_fp16.safetensors
ダウンロードするには、右側にある「↓」のボタンをクリックします。
ダウンロードができたら、テキストエンコーダを、
「Comfyui」のファイルに配置します。
配置する場所は、
「/ComfyUI/models/clip」に入れてください。
②Stable Diffusion 3.5 をダウンロードする
次に、「Stable Diffusion 3.5」をダウンロードします。
「Hugging Face」にアクセスしてください。
ページを下にスクロールすると、ダウンロードする場所があります。
「Stable Diffusion 3.5 Large」はこちら
「Stable Diffusion 3.5 Medium」はこちら
ダウンロードができたら、「Stable Diffusion 3.5」を、
「Comfyui」のファイルに配置します。
配置する場所は、
「/ComfyUI/models/checkpoints」に入れてください。
③ComfyUIにワークフローを読み込む
最後に、ComfyUIにワークフローを読み込みます。
まずは、ComfyUIを起動してください。
そして、以下のWebサイトにアクセスしてください。
Webサイトの画像を、
ComfyUIのワークフローに、
ドラッグ&ドロップします。
これで「Stable Diffusion 3.5」の起動の準備ができました。
ぜひ、画像生成を楽しんでくださいね!
まとめ
実際に、「Stable Diffusion 3.5」の「Large」と「Medium」を使ってみました。
どちらもクオリティの高い画像が作れて、プロンプトに忠実で、とても満足です!
今後は、「Stable Diffusion 3.5」のファインチューニングモデルが出てくることに期待ですね!
コメント