ローカル環境で画像生成AIするためにモデルが必要になりますので、モデルの種類を紹介します。

生成画像AIにとってモデルは、人間に例えると脳の部分になります。ユーザー入力したテキスト元に画像を生成することができます。技術の進化によりモデルの種類も増えていますので、おすすめをご紹介します。

モデルにはベースモデルと派生モデルがあります。派生モデルとはベースモデルを改造して特定の目的や画風に特化させたモデルのことです。

また、「LORA」というのもあり、これは「Low-Rank Adaptation」の略で直訳すると「低ランク適応」です。モデルに小さな学習データを読み込ませ、目的に合った部位・キャラクター・ポーズ・画風などを生成できる様にするもの

Stable Diffusion

2022年に公開されました。オープンソースとして公開していますので、自分のPCにインストールすれば無料で画像生成ができます。
商用利用(念のため確認が必要)も可能なので広く使用されています。

SD 1.5系

最も普及しているモデルで、画像生成の速度が速く、高スペックなPCでなくても画像生成できます。
情報や派生モデルもたくさんあります。
商業利用は可能です。

SD XL系

SD1.5よりも高画質で詳細な画像が生成できます。高スペックなPCが必要になってきます。
商業利用は可能です。

FLUX

2024年8月に公開され、オープンソースとして公開していますので、自分のPCにインストールすれば無料で画像生成ができます。
長文のプロンプトの理解力、リアルな描画力が特徴です。

FLUX.1 dev

肌の質感や光の当たり方が非常にリアルで写真と見紛うほどの高品質です。高スペックなPCが必要になります。
プロンプトの理解力も高いです。
商業利用はできません。

FLUX.1 schnell

FLUX.1 devに比べると画質は落ちますが、生成する速度は速いです。
商業利用は可能です。

FLUX.2 klein

2026年1月に登場しました。FLUX.1 schnellと同等の画質ですが、画像生成時間はこちらの方が断然速いです。
4Bと9Bなどのタイプがります。4Bや9BのBは、Billion(10億)で、数が大きいほど賢いです。
4Bは商業利用は可能ですが、9Bは商業利用はできません。

Z-Image

2025年11月に公開され、オープンソースとして公開していますので、自分のPCにインストールすれば無料で画像生成ができます。実写系の画像生成において高い評価を受けています。さらに少ないプロンプトでも意図した通りの雰囲気や構成の画像を生成します。

Z-Image Base

高い描画能力を持つベースモデルで、高スペックなPCが必要になります。
商業利用は可能です。

Z-Image Turbo

実写特化で、写真のようなリアルな画像を高速で生成できます。
VRAMが12Gバイト程度でも快適に画像生成ができます。
商業利用は可能です。

モデルのファイル名の後に続く数字

モデルファイルをダウンロードする時に名前の後ろに数字がついているものがあります。どれを選べば良いのかわからないことがありますので、数字の意味をご説明します。
「fp32」「fp16」は、モデルのデータ精度(数値の細かさ)を表しています。
「bf16」「nf4」「8bit」は、モデルデータの数値の精度の形式(量子化)を表しています。

fp32 (Full Precision/32-bit)

非常に高い精度で計算を行うデータ形式です。
ファイルサイズも大きいのでメモリの消費も激しいです。

fp16 (Half Precision/16-bit)

fp32のデータの精度を半分に落とした形式ですが、画像生成において見た目の質はほとんど変わりません。
ファイルサイズがfp32の約半分になり、メモリ消費も抑えられて生成スピードも速くなります。

bf16 (Bfloat16)

精度をあまり落とさずにデータを半分(16ビット)に削減した形式で、「高画質・高精度」ですが、ファイルサイズ(約24GB〜)が大きく、動かすには非常に大きなメモリが必要になります。

nf4 (Normal Float 4)

データをさらに極限まで圧縮(4ビット)した形式で、画像生成速度が速く、ファイルサイズが(約7GB〜10GB程度)小さくなるので、メモリ消費も抑えられ、スペックが低いPCでも動くようになります。
す。

商業利用について

ウェブサイトに広告(Googleアドセンスやアフィリエイトなど)が貼ってある場合は、一般的に「商用利用」とみなされます。
そのため「非商用限定」のライセンスである FLUX.1 dev や FLUX.1 Krea で生成した画像をそのままアップロードするとライセンス違反になる可能性が高いです。

商業利用とみなされるもの

アフィリエイトリンクがある、広告が表示されている、有料記事のアイキャッチ、自社の宣伝。

商業利用とみなされないもの

非商用利用: 完全に趣味のブログ、収益化を一切していない個人サイト。

モデル別サンプル画像

実際にご紹介したモデルでサンプル画像を載せます。
全ての画像は以下のプロンプトで作成しました。
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot
8K、最高品質、傑作、写真のようにリアル、日本女性、ロングヘアー、フリルのシャツ、笑顔、ストリート、夜、映画のようなショット

Stable Diffusion 1.5

SD1.5の派生モデルのyayoi_mixで作成しました。

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 20, Sampler: DPM++ 2M, Schedule type: Karras, CFG scale: 7, Seed: 394658059, Size: 768x1024, Model hash: ca28aa4a44, Model: yayoiMix_v25, Version: v1.10.1

Stable Diffusion XL

SDXLの派生モデルのRealVisXLで作成しました。

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 16, Sampler: DPM++ 2M AYS, CFG scale: 5, Seed: 3529341613, Size: 768x1024, Model: realvisxl_v4.0_f16

FLUX.1 schnell

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 4, Sampler: Euler A Trailing, CFG scale: 4.5, Seed: 3529341613, Size: 768x1024, Model: flux_1_schnell_q8p

FLUX.2 klein

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 4, Sampler: DDIM Trailing, CFG scale: 1.0, Seed: 3529341613, Size: 768x1024, Model: flux_2_klein_4b_q8p

Z-Image Base

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 30, Sampler: UniPC Trailing, CFG scale: 4.0, Seed: 3529341613, Size: 768x1024, Model: z_image_1.0_q8p

Z-Image Turbo

プロンプト
8K,best quality, masterpiece, photo-realistic, japanese woman, long hair, frilled shirt, smiling, street, night, cinematic shot

設定値
Steps: 30, Sampler: UniPC Trailing, CFG scale: 4.0, Seed: 3529341613, Size: 768x1024, Model: z_image_turbo_1.0_q8p

まとめ

モデルがたくさんあり、どれを選べば良いのかと迷います。実際に色々試して画像を見て決めるのが一番です。モデルにも得意・不得意がありますので、作りたい画像によってモデルを切り替えるのも良いです。
モデルのファイルサイズが大きいので、たくさんのモデルを使うには外付けの記憶装置があった方が良いです。私が使っているDraw ThingsやStabilityMatrixは、外付けの記憶装置にも対応しています。

この記事を書いている時点で私個人は、Z-Image Turboがお気に入りです。生成速度も速くて人物の画像をとても綺麗に生成してくれます。プロンプトも自然な文章も理解してくれます。