コンピューター ビジョン用の 10 の最大の画像データセット

コンピューター ビジョンは、人工知能の分野で非常に重要です。

コンピューターが人間の視覚システムを複製できるようにし、画像やビデオからの情報を使用してオブジェクトを識別および分類します。

コンピューター ビジョン用のプログラミング言語は数多くありますが、最もよく使用される言語には C++ と Python があります。

コンピューター ビジョン モデルの構築においてデータは非常に重要です。この記事では、 コンピューター ビジョン向けの 10 の最大のデータセット。

  • CIFAR-10CIFAR-100 – お茶 CIFAR-10 10 クラスの 60 個の 32×32 カラー画像で構成され、クラスごとに 6000 個の画像があります。 合計 50000 のトレーニング イメージと 10000 のテスト イメージがあり、さらに 5 つのトレーニング バッチと 1 つのテスト バッチに分割され、それぞれに 10000 のイメージがあります。 お茶 CIFAR-100 100 クラスに 60000 個の 32×32 カラー画像があり、クラスごとに 600 個の画像があります。 100 個のクラスは 20 個のスーパークラスにグループ化され、そのクラスを示す細かいラベルと、そのクラスが属するスーパークラスを表す粗いラベルが付いています。

  • ImageNet– これは、WordNet 階層に従って編成された画像のデータセットです。 これには 1000 個のオブジェクト クラスがあり、1,281,167 個のトレーニング イメージ、50,000 個の検証イメージ、および 100,000 個のテスト イメージが含まれています。
    このデータセットをダウンロードするには、 Webサイト ログインして入手してください アクセス。

  • MS ココ – Microsoft Common Objects in Context(MS Coco) データセットには、日常のオブジェクトと人間の 328,000 の高品質のビジュアル イメージが含まれており、リアルタイムのオブジェクト検出におけるアルゴリズムのパフォーマンスを比較するための標準としてよく使用されます。

  • フリッカー30k – Flickr データセットは、Flickr から収集された 31,000 枚の画像と、ヒューマン アノテーターによって提供された 5 つの参照文で構成されています。 賞に基づく画像の説明では、標準的なベンチマークとなっています。

    Flickr30k エンティティ (1 行目) と ReferItGame (2 行目) データセットの例。

  • IMDB ウィキ – このデータセットは、公開されている最大のデータセットです。 500,000 以上の人間の顔の画像と、性別、年齢、名前が含まれています。

  • バークレー ディープ ドライブ– BDD110K は最大の多様な運転ビデオ コレクションであり、10 の異なる自動運転認識タスクについて 100,000 のビデオに注釈が付けられています。
    データセットをダウンロードするには、 Webサイト ログインしてダウンロードします。

  • LSUN– この LSUN 分類データセットには、10 のシーン カテゴリと 20 のオブジェクト カテゴリがあります。 トレーニング データの各カテゴリには、約 120,000 から 3,000,000 のかなりの量の写真があります。

    LSUN データセットに関するその他の詳細を次に示します。

    私。 シーンのカテゴリ(ベッドルーム、ブリッジ、教室、会議室、リビングルーム、レストラン、タワー、ダイニングルーム、キッチン、教会の屋外)。

    Ⅱ.オブジェクトのカテゴリ (飛行機、自転車、鳥、ボート、ボトル、バス、車、猫、椅子、牛、食卓、犬、馬、バイク、人物、鉢植え、羊、ソファ、電車、テレビモニター)。

    データセットにアクセスするには、 GitHub.

  • キネティクス 700 – Kinetics 700 は、650,000 個のメディア クリップのビデオ データセットであり、700 個の人間のアクション クラスで構成されています。 これらの相互作用には次のものがあります。 握手とハグ。 アクション クラスごとに少なくとも 700 のメディア クリップがあるため、Kinetics 700 という名前が付けられています。

    各クリップの長さは約 10 秒で、1 つのアクション クラスで手動でラベル付けされています。

    データセットをダウンロードするには、 ダウンロードデータセット オプション。

  • MPII ヒューマン ポーズ– この人間の姿勢のデータセットは、多関節の人間の姿勢推定を評価するための最新の標準です。 データセットは、410 の人間の活動をカバーする注釈付きの身体関節を持つ 40,000 人以上の人々を含む YouTube ビデオから抽出された 25,000 の画像で構成され、各画像には活動ラベルが付いています。

    このデータセットをダウンロードするには、 ここ。

  • LabelMe-12-50k– まず第一に、このデータセットは、各オブジェクト クラスの例が外観、照明、視野角に幅広いバリエーションを示すため、オブジェクト認識システムにとって困難なタスクです。

    データセットは、サイズがそれぞれ 256×256 ピクセルの 50,000 個の JPEG 画像で構成されています (トレーニング用に 40,000 個、テスト用に 100,000 個)。

    このデータセットをダウンロードするには、 ここ.

  • コンピューター ビジョンは、顔認識や画像分析などのタスクに役立ちます。 データセットは、誰でも自由にダウンロードして使用できます。

    この記事のリード画像は、HackerNoon の AI Stable Diffusion モデルを介して生成され、プロンプト「何千もの画像が重ね合わされました」を使用しています。

    Leave a Comment

    Your email address will not be published. Required fields are marked *