DALL・E 2、Stable Diffusion、Midjourney はどのように機能しますか?

ここ数年、人工知能 (AI) は多くの進歩を遂げてきました。 AI画像ジェネレーター. 入力文を絵や絵に変換できるツールです。 テキストから画像への AI ツールには多くのオプションがありますが、際立っているのは DALLE 2、Stable Diffusion、および Midjourney です。

スラブ 2

DALL E 2 は、によって作成された AI プログラムです。 AIを開く テキストの説明から画像を作成します。 GPT-3 変換モデルの 100 億を超えるパラメーター トレーニング バージョンを使用して、自然言語入力を解釈し、対応する画像を生成します。

星雲の爆発として描かれた、ダンクするバスケットボール選手の表情豊かな油絵 – SLAB 2 を使用して作成

安定したスプレッド

Stable Diffusion はテキストから画像へのモデルで、凍結された CLIP Vit-L/14 テキスト エンコーダーを使用して、テキスト プロンプトでモデルを調整します。 実行時にイメージングプロセスを「拡散」プロセスに分離します。ノイズのみから開始し、ノイズが完全になくなるまで画像を徐々に改善し、提供されたテキストの説明に徐々に近づきます。

エッフェル塔を眺めながらピカチュウの高級ダイニング – 安定拡散によって生成された

途中

Midjourney は、ユーザー プロンプトから画像を生成するもう 1 つの AI 搭載ツールです。 MidJourney は、実際のアート スタイルを適応させて、ユーザーが望むものの任意の組み合わせのイメージを作成することに長けています。 ビデオ ゲームからレンダリングされたコンセプト アートのように見える劇的な照明を使用して、環境、特にファンタジーや SF シーンの作成に優れています。

夜のクラウド キャッスル、シネマティック – Midjourneyによって作成されました

DALL E 2 の背後にあるテクノロジー

DALL E 2 は主に 2 つの部分で構成されています。1 つはユーザー入力を画像の表現に変換するためのものです ( 優先順位) と、この表現を実際の写真 (と呼ばれる) に変換する別の デコード)。

使用されるテキストと画像の埋め込みは、 クリップ (Contrastive Language-Image Pre-training) も OpenAI によって作成されました。 CLIP は、入力画像に最適なキャプションを返すニューラル ネットワークです。 DALLE 2 とは逆の、テキストから画像への変換を行います。 CLIP の目的は、オブジェクトの視覚的表現とテキスト表現の関係を学ぶことです。

DALL・E 2 の目標は、2 つのモデルをトレーニングすることです。 1 つ目は、テキスト ラベルを取り、CLIP 画像の埋め込みを作成するようにトレーニングされた Prior です。 2 つ目は Decoder で、CLIP 画像の埋め込みを取得して、学習した画像を生成します。 トレーニング後、推論のワークフローは次のようになります。

  • 入力されたキャプションは、ニューラル ネットワークを使用して埋め込まれた CLIP テキストに変換されます。
  • Prior は、主成分分析または PCA を使用して、テキスト埋め込みの次元を減らします。
  • 画像の埋め込みは、テキストの埋め込みを使用して作成されます。
  • デコーダのステップでは、拡散モデルを使用して画像埋め込みを画像に変換します。
  • 画像は、畳み込みニューラル ネットワークを使用して 64×64 から 256×256 に、最後に 1024×1024 に拡大されます。

Stable Diffusion の背後にあるテクノロジー

Stable Diffusion は、最先端のテキストから画像への合成技術である潜在拡散モデル (LDM) を利用しています。 LDM の仕組みを理解する前に、拡散モデルとは何か、なぜ LDM が必要なのかを見てみましょう。

拡散モデル (DM) は、画像などのデータを取得し、認識できなくなるまで徐々にノイズを追加する変換ベースの生成モデルです。 その時点から、彼らは画像を元の形に再構築しようとし、そうする中で、写真やその他のデータを生成する方法を学びます.

DM の問題は、強力な DM が数百日間の GPU を消費することが多く、逐次評価のために推論にかなりのコストがかかることです。 品質と柔軟性を損なうことなく、限られた計算リソースで DM トレーニングを有効にするために、事前にトレーニングされた強力なオートエンコーダーの潜在空間に DM が適用されます。

このような表現で拡散モデルをトレーニングすると、複雑さの軽減とディテールの維持の間の最適なポイントを達成でき、視覚的な忠実度が大幅に向上します。 モデル アーキテクチャにクロスアテンション レイヤーを導入すると、拡散モデルが、テキストやバウンディング ボックスなどの一般的に調整された入力用の強力で柔軟なジェネレーターに変わり、高解像度の畳み込みベースの合成が可能になります。

ミッドジャーニーはどのように機能しますか?

Midjourney は、テキスト プロンプトとパラメーターを介して入力を受け取り、大量の画像データでトレーニングされた機械学習 (ML) アルゴリズムを使用して一意の画像を生成する AI 画像生成ツールです。

Midjourney は現在、公式 Discord の Discord ボットからのみアクセスできます。 ユーザーは「/imagine」コマンドを使用して画像を生成し、他の AI アート ジェネレーター ツールと同様にコマンド プロンプトを入力します。 次に、ボットはスナップを返します。

DALL E 2、Stable Diffusion、Midjourney の比較

DALL E 2 は何百万ものストック画像でトレーニングされており、その出力はより洗練され、企業での使用に最適です。 DALL E 2 は、3 人以上のキャラクターがいる場合、Midjourney または Stable Diffusion よりもはるかに優れた画像を生成します。

一方、Midjourney は、その芸術的なスタイルで最もよく知られているツールです。 Midjourney は Discord ボットを使用して AI サーバーへの通話の送受信を行っており、ほとんどすべてが Discord で行われます。 結果の画像が写真のように見えることはめったにありません。 絵のようです。

Stable Diffusion は、誰でもアクセスできるオープンソース モデルです。 また、現代美術のイラストレーションを比較的よく理解しており、非常に詳細なアートワークを作成できます。 ただし、複雑な元のプロンプトの解釈が必要です。 Stable Diffusion は、複雑でクリエイティブなイラストには優れていますが、ロゴなどの一般的な画像を作成する場合には不十分です。

以下のプロンプトは、各モデル間の類似点と相違点を理解するのに役立ちます。

参加することを忘れないでください 私たちのRedditページ不協和音チャンネルでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。

参考文献:

  • https://medium.com/mlearning-ai/dall-e2-vs-stable-diffusion-same-prompt-different-results-e795c84adc56
  • https://medium.com/geekculture/what-is-dalle-2-what-to-know-before-trying-the-groundbreaking-ai-e7a585f2edf0
  • https://stability.ai/blog/stable-diffusion-public-release
  • https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/
  • https://medium.com/nightcafe-creator/stable-diffusion-tutorial-how-to-use-stable-diffusion-157785632eb3
  • https://interestingengineering.com/innovation/stability-ai-uses-latent-diffusion-models-to-allow-users-to-create-art-in-stable-diffusion
  • https://medium.com/augmented-startups/how-does-dall-e-2-work-e6d492a2667f
  • https://medium.com/codex/a-quick-look-under-the-hood-of-stable-diffusion-open-source-architecture-2f07fc1e729
  • https://stepico.com/blog/midjourney-as-an-artificial-intelligence-system/
  • https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/
  • https://petapixel.com/2022/08/22/ai-image-generators-compared-side-by-side-reveals-stark-differences/
  • https://analyticsindiamag.com/stable-diffusion-vs-midjourney-vs-dall-e2/
  • https://medium.com/mlearning-ai/dall-e-2-vs-midjourney-vs-stable-diffusion-8eb9eb7d20be


私はニューデリーの Jamia Millia Islamia の土木工学の卒業生 (2022 年) で、データ サイエンス、特にニューラル ネットワークとそのさまざまな分野での応用に強い関心を持っています。


Leave a Comment

Your email address will not be published. Required fields are marked *