「DIFFUSIONDB」と呼ばれるこの人工知能 (AI) 画像データセットをご覧ください。これは、200 万の安定した拡散画像と、それらのテキスト プロンプトとハイパーパラメーターで構成されています

最初の広範なテキストから画像へのプロンプト データセットは、DiffusionDB と呼ばれます。 実際のユーザーから提供されたプロンプトとハイパーパラメーターを使用して作成された、200 万枚の Stable Diffusion で生成された写真があります。

ユーザーは、自然言語でテキスト プロンプトを作成することにより、高品質の写真を作成できるようになりました。 それにもかかわらず、適切な詳細を含む写真を作成するには適切な刺激が必要ですが、モデルがさまざまなプロンプトにどのように反応するか、または理想的なプロンプトが何であるかを明確にする必要がある場合があります. 研究者は、最初の広範なテキストから画像へのプロンプト データセットである DIFFUSIONDB を提示し、研究者がこれらの重要な問題に対処するのを支援します。 DIFFUSIONDB には、実際のユーザーから与えられたプロンプトとハイパーパラメータを使用して、Stable Diffusion によって作成された 200 万枚の写真が含まれています。 彼らはデータセットのプロンプトを調べ、その主な特徴について話します。 この人間が操作するデータセットの並外れたサイズと多様性は、生成モデルとプロンプトがどのように相互作用するかを解明し、ディープ フェイクを発見し、人間が操作するシステムを開発する上で、魅力的な研究の可能性を提供します。

ソース: https://arxiv.org/pdf/2210.14896.pdf

タスク サポートとリーダーボード

この人間が操作するデータセットの比類のないサイズと多様性は、プロンプトと生成モデル間の相互作用を理解し、ディープフェイクを検出し、これらのモデルのユーザー採用を促進する人間と AI の相互作用のためのツールを開発するための魅力的な研究機会を提供します。

データ セット サブセットの追加

DiffusionDB のサイズは 1.6 TB です。 ただし、モジュール化されたファイル構造のおかげで、必要な量の写真をプロンプトとハイパーパラメーターとともにすばやくインポートできます。 それらは、DiffusionDB の一部をロードする 3 つの方法を示しています。

HUGGING FACE DATASETS LOADER を使用する方法 1

Hugging Face Datasets ライブラリを使用すると、DiffusionDB から質問や写真を簡単に読み込むことができます。 インスタンスの数を使用して、16 個の DiffusionDB サブセットを事前定義しました。

方法 2: Poloclub アプリをダウンロードする

このリポジトリに含まれている Python ダウンローダー download.py を使用して、DiffusionDB をダウンロードしてロードできます。 コマンドラインから利用できます。

孤独なファイルの入手

HuggingFace では、ファイルの末尾にある番号は、ダウンロードする特定のファイルを示しています。 プログラムは自動的に数値を膨らませて URL を生成します。

各種ファイルの取得

-i および -r パラメータは、ダウンロードするファイルのリストの上限と下限を設定します。

方法 3 で metadata.parquet を使用する (テキストのみ)

タスクに画像が必要ない場合は、metadata.parquet テーブル内の 200 万のプロンプトとハイパーパラメーターすべてに簡単にアクセスできます。

DiffusionDB は、公式の Stable Diffusion Discord サーバーでユーザーが生成した画像をスクレイピングした結果です。 サーバーには、違法、ヘイト、または NSFW (仕事に適さない) 画像の生成と共有に対する厳格なルールがあります。 また、ユーザーが個人情報を含むプロンプトを作成または共有することも禁止します。

データセットの作成

キュレーションの根拠

最近の拡散モデルは、自然言語を使用してテキストの手がかりから高品質で制御された画像を生成できるため、非常に人気があります。 これらのモデルが公開されて以来、他の分野の個人がすぐにそれらを使用して、超現実的な映画、合成放射線スキャン、さらには受賞歴のあるアートワークを作成しました.

ただし、適切な情報を含む画像を作成するには時間がかかります。これは、ユーザーが求めている正確な結果を説明するプロンプトを適切に作成する必要があるためです。 そのような衝動は、試行錯誤によって開発されなければならず、しばしばランダムで無原則に見えます。 研究者は、「魔法の呪文」を習得する魔法使いにプロンプ​​トを書くことを比較します。 ユーザーは、一部のプロンプトが効果的である理由を理解できないかもしれませんが、それでもそれらを「スペル ブック」に追加します。 たとえば、非常に詳細な写真を作成するために、プロンプトに「artstation のトレンド」や「unreal engine」などのユニークなフレーズを含めることが慣例になっています。

テキストからテキストへの生成の枠組みの中で、プロンプト エンジニアリングは、さまざまなダウンストリーム アクティビティを正常に完了するためのプロンプトの作成方法を研究者が体系的に分析する研究のトピックに発展しました。 大規模なテキストから画像へのモデルはまだ初期段階にあるため、プロンプトにどのように応答するか、説得力のあるプロンプトを作成する方法、およびユーザーが画像を作成するのを支援するツールを作成する方法を理解することが重要です。 彼らは、200 万の実際のプロンプト画像ペアを持つ最初の大規模なプロンプト データセットである DiffusionDB を開発し、学者がこれらの重要な問題に対処するのを支援しています。

データセットの社会的影響: データ使用に関する考慮事項

このデータセットは、非常にスケーラブルなテキストから画像への生成モデルの開発をサポートすることを目的としています。 この人間が操作するデータセットの比類のない豊富さと多様性は、プロンプトと生成モデルの関係を理解し​​、ディープフェイクを検出し、これらのモデルのユーザー採用を促進する人間と AI の相互作用のためのツールを開発するための刺激的な研究機会を提供します。

Stable Diffusion Discord サーバーからプロンプトとビジュアルをプルすることに注意することが重要です。 ユーザーは、Discord サーバー上で損害を与えるまたは NSFW (性的および暴力的なコンテンツなどの仕事には受け入れられない) の写真を作成または共有することを禁止されています。 サーバーの Stable Diffusion モデルは、NSFW 素材に遭遇したときに生成されたグラフィックを歪める NSFW フィルターをさらに備えています。 一部のユーザーが、NSFW フィルターがキャッチしなかった、またはサーバーのモデレーターが削除しなかった有害な写真を作成した可能性は依然としてあります。 その結果、DiffusionDB にはこれらの画像が含まれている可能性があります。 彼らは DiffusionDB Web サイトで Google フォームを提供しており、ユーザーは攻撃的または不適切な画像やプロンプトを報告して、被害を最小限に抑えることができます。 このフォームは積極的に監視され、報告された写真やプロンプトは DiffusionDB から削除されます。

DiffusionDB のプロンプトは、ベータ テスターに​​よってアップロードされた写真を正確に表していない可能性があります。これらの写真は、ボットが事前に Stable Diffusion をテストできるチャンネルで撮影されたものです。 これらのユーザーは、モデルが一般に公開される前に Diffusion を使い始めたため、代替のテキストから画像への生成モデルを知っている可能性があります。

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'DIFFUSIONDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, dataset and project.
Please Don't Forget To Join Our ML Subreddit


Ashish kumar は MarktechPost のコンサルティングインターンです。 彼は現在、カンプールのインド工科大学 (IIT) で Btech を目指しています。 彼は、テクノロジーの新しい進歩とその実際のアプリケーションを探求することに情熱を注いでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *