文字に強い!Qwen-Imageで画像に綺麗なテキストを描こう!【ComfyUI】

少年
少年

画像に綺麗なテキストを入れたいなぁ・・・

ティール
ティール

そんなときは、「Qwen-Image」がオススメだよ!

  • Wan2.2 Fun Inp ってなに?
  • Wan2.2 Fun Inp のモデルってどこからダウンロードするの?
  • Wan2.2 Fun Inp のワークフローが知りたい

Qwen-Image とは

Qwen-Image とは、2025年8月にアリババが公開した最新の画像生成モデルです。

普通の画像生成モデルはキレイな絵を描くのは得意ですが、
日本語や中国語のような複雑な文字を描くのは苦手でした。

Qwen-Image は、ここを強化していて、
文字がちゃんと読める画像を作れるのが大きな特徴です。

Qwen-Image の特徴

200億パラメータの大型モデル

Qwen-Image は、200億パラメータを持つ巨大な生成モデルです。

パラメータの数が多いほど、細かい描写や複雑な構図に強くなり、
現実に近い画像や高精度のアート表現が可能になります。

多言語の文字を正しく描ける

多くの画像生成は、「英語の文字」は比較的うまく描けますが、
日本語の漢字や中国語の繁体字、アラビア語のような複雑な文字体系は苦手でした。

Qwen-Image は、独自の学習データセットとアルゴリズムで、これらの課題を克服しています。
「看板・広告・資料」などを、正しい形で読める文字として生成できます。

オープンソース&無料公開

Qwen-Image は、研究者やクリエイターが自由に使えるように、
「Apache 2.0ライセンス」で公開されています。

VRAM使用量と生成時間

こちらは、「RTX4090D 24GB」を使用した際の使用量と生成時間になります。

「Qwan-image-lightx2v」と「Qwan-image-Distilled」は、
1回目の生成時間が1分で、2回目の生成時間が30秒ですね!

【ComfyUI】Qwen-Image セットアップ

Qwen-Image の Diffusion Model

1. Diffusion Model をダウンロードする

Diffusion Model は、以下のリンクからダウンロードできます。

「qwen_image」は公式モデルで、
「qwan-image-distill」は非公式の蒸留モデルです。

2. Diffusion Model をフォルダに配置する

Diffusion Model を以下のフォルダに配置します。

「ComfyUI/models/diffusion_models」

Qwen-Image の VAE

1. VAE をダウンロードする

VAE は、以下のリンクからダウンロードできます。

  • qwen_image_vae.safetensors

2. VAE をフォルダに配置する

VAE を以下のフォルダに配置してください。

「ComfyUI/models/vae」

Qwen-Image の Text Encoder

1. Text Encoder をダウンロードする

以下のリンクから、Text Encoder をダウンロードしてください。

  • qwen_2.5_vl_7b_fp8_scaled.safetensors

2. Text Encoder をフォルダに配置する

Text Encoder を、以下のフォルダに配置してください。

「ComfyUI/models/text_encoders」

Qwen-Image-Lighting の LoRA

1. LoRA をダウンロードする

Qwen-Image-Lighting の LoRA は、以下のリンクからダウンロードできます。

2. LoRA をフォルダに配置する

Diffusion Model を以下のフォルダに配置します。

「ComfyUI/models/loras」

Qwen-Image のワークフロー

ワークフローのテンプレート

Qwen-Image の公式のワークフローは、
ComfyUI の「Browse Templates」で公開されています。

  • ComfyUIを起動する
  • 「Workflow」のタブから「Browse Templates」を選択する
  • 「Video」の項目から、「Qwen-Image」を選択する

ワークフローのダウンロード

こちらは、Qwen-Imageのワークフローのファイルです。
以下の手順で進めていただくと、ComfyUIにワークフローが読み込めます。

  • 「ダウンロード」ボタンをクリックする
  • JSONファイルをComfyUIの画面にドラッグ&ドロップする

Qwen-Image のワークフロー

Qwen-Image-Lighting のワークフロー

Qwen-Image-Distilled のワークフロー

まとめ

いかがでしたでしょうか。
この記事では、Qwen-Image について解説しました。

Qwen-Imageは、高精度なテキスト描写能力を兼ね備えた、画像生成モデルです。
ポスターやラベルのように、正確な文字を含む画像をキレイに作れるのが大きな特徴です。

今後、画像生成の中で「テキストを入れる画像」という難題に取り組むうえで、
Qwen-Imageは重要な選択肢のひとつとなるでしょう。

この記事が、あなたのお役に立てればとても嬉しいです。
最後まで読んでいただき、ありがとうございました。

コメント

タイトルとURLをコピーしました