Stable Diffusionは、テキストから高品質な画像を自動生成できるAIです。
どうして画像を生成できるの?
「画像の特徴を学習したAIモデルが、ノイズから意味のある画像を復元するプロセス」を使っているからです。
まっさらなキャンバスに、目を閉じて少しずつ形を描きながら、
「これは猫っぽい」「これは夕焼けっぽい」と想像していく感じかな。
DeepLeaningとTrasformer
GANs(Generative Adversarial Networks、敵対的生成ネットワーク)
「生成器(Generator)」と「識別器(Discriminator)」を組み合わせて学習を行います。
現在の多くのAI言語モデルの基盤となっています。文章の特徴を抽出する「エンコーダ」と、特徴から新しい文章を生成する「デコーダ」に分かれています。
Transformer(トランスフォーマー)
Transformer(トランスフォーマー)は、2017年にGoogleの研究者たちによって発表された、自然言語処理(NLP)を中心に広く使われている深層学習モデルのアーキテクチャです。
自然言語処理(NLP)を中心に広く使われている深層学習モデルのアーキテクチャです。
2つの学習 拡散モデル+クロスモーダル学習
拡散モデル (Diffusion Model)
拡散モデルは、前処理と後処理の2つのプロセスを何度も繰り返すことで、絵を描く力を高めていく学習モデルです。
この学習は、絵を描く基礎となるペインティング力(色彩感覚、筆遣い、素材の理解、表現力など)を伸ばすのに役立ちます。
前処理(フォワードプロセス)
まず、元の画像に少しずつノイズを加えていきます。ノイズを加え続けると、最終的には完全にランダムなノイズ(ぐちゃぐちゃな画像)になります。このプロセスを何度も繰り返すことで、画像の変化やパターンのバリエーションを学びます。つまり、ノイズを加えることで、さまざまなパターンの画像を経験するわけです。
後処理(リバースプロセス)
次に、ノイズを段階的に取り除いて、元の画像に近づけていきます。最初のうちは、まだノイズが多くて元の画像の特徴がうまく伝わりませんが、徐々にノイズを減らすことで、元の画像に近づいていきます。このとき、元画像と今の画像の違い(損失関数)を見ながら調整します。こうして、ノイズを効率よく除去する力がアップしていきます。このプロセスも何度も繰り返すことで、ペインティング力(こんなふうに塗るとこうなる)が強化されます。
クロスモーダル学習
「モーダル」とは、画像・音声・テキストなど、データの種類のことを指します。クロスモーダル学習では、たとえば「画像とその説明文」や「音声とテキスト」など、複数のモーダルを同時に使ってAIを学習させます。この方法を使うと、テキストと画像をペアで学ぶことができ、たとえばデッサン力(デザインの感覚や構図、ストーリー性など)を身につけることも可能です。さらに、与えられたテキストから新しい絵を生み出す力も持っています。こうした仕組みが「クロスモーダル学習」と呼ばれ、AIが次に来る単語を予測したり、画像を生成したりできる理由になっています。
- どんなことができる?
画像を見て説明文を自動生成する(画像→テキスト) - 音声を聞いて内容を文字に起こす(音声→テキスト)
- テキストから画像を生成する(テキスト→画像)