「Latent Consistency Models（LCM）」が話題に　ビデオメモリーの少ないPCでも高速に画像生成可能に稗田利明

こんにちは、稗田利明です！

画像生成AI界隈で話題になっている「Latent Consistency Models（レイテント・コンシステンシー・モデル）」（以下「LCM」）は、中国精華大学のシミアン・ルオさんが中心となって発表された論文で、日本語にすると「拡散的一貫性モデル」です。LCMは、新しいタイプの効率性の高い生成モデルを使い、Stable Diffusion＝安定拡散モデルより高速に画像を生成することができます。そのため、ビデオメモリーの少ないローレベルのPCでも画像生成AIを動かせるようになりました。

Stable Diffusionの拡散モデルは、ランダムなノイズ情報から、学習済みの特徴点データを利用することで、段々と画像を生み出していくサンプリングプロセスを繰り返します。それによって画像を生成する仕組みです。通常、1枚の画像を生み出すのに必要なサンプリングプロセスは約20～30回。1回ずつの計算に時間がかかるため、1枚あたりの生成にも時間がかかり、性能の高いハイエンドPCが必要でした。

これに対してLCMは、ランダムノイズの状態から1ステップで画像を生成することで、劇的な高速化をはかっています。さらに2～4ステップを追加すれば、画像の品質も引き上げられます。Stable Diffusionのやり方だと、1ステップ目はまだノイズが多く残っている状態で、どのような画像が成立しようとしているのかわかりませんが、LCMでは1ステップだけで明確な画像が生み出されてくるわけです。

LCMはこれまでのモデルと異なる方法で処理されているため、Stable Diffusion向けに作成された学習モデルとの互換性がありません。そのため使用するにはLCM専用の学習済みモデルを作成する必要があります。LCM用のアルゴリズムに合わせて既存の学習済みモデルを利用して新しいモデルを生み出したり（「蒸溜」と呼ばれます）、最初から新しく専用に作る必要があります。

ただし、論文発表に合わせて、LCM専用モデル「LCM_Dreamshaper_v7」がサンプルモデルとして公開されています。AUTOMATIC1111 WebUIで動作させるための拡張機能「Latent Consistency Models for Stable Diffusion WebUI」も公開されているため、こちらで試すことができます。

NVIDIA GeForce RTX 4090の環境で「tokyo」と簡単なプロンプトを書き、512×512ピクセルの画像をステップ「20」の設定で4枚生成したところ、生成にかかった時間はわずか約0.7秒、1秒未満でした。同じ設定で、Stable Diffusion V1.5で生成すると4枚で3.8秒程度。LCMの方が約5倍も速いことになります。これは単純に、デフォルトのステップ数が5分の1になっているため、それだけ速くなっていると考えられます。

LCMの活用として、非常に面白いのがimage2imageです。爆速で処理ができるため、映像を使った「リアルタイム生成」ができるんですね。無料でウェブカメラの画像を専用のControlNetを使って変換できるデモが公開されているため、実際に試してみることができます。画面左上に映っているのが筆者で、プロンプトに「boy」と入れると顔が少年になり、「man」にすると老人になる。seaと入れると背景が海になり、「window」と入れると本棚が窓枠に変わり、「ship」と入れると船があらわれといった具合に、映像が変化していきます。ほかにもビールを飲ませたり、猫を出したり、筆者と筆者の部屋の情報をソースにどんどん映像を変えていけるんですね。ただ、自分を美少女にすることはできても、美少女をそばに出し続けるのは難しかったんですが（笑）。

今後は、画像から画像を生成するimage2imageや、ビデオから画像を生成するVideo2Videoに対応することもアナウンスされており、生成速度の圧倒的な速さは

稗田利明のIT Insights

ITの未来を探る、情報発信"

「Latent Consistency Models（LCM）」が話題に　ビデオメモリーの少ないPCでも高速に画像生成可能に稗田利明