優れたコンピューター ビジョンへのシンプルな道

2022 年 11 月 24 日

(ナノワークニュース) 機械学習モデルが医用画像内のがんの識別などのタスクを完了する前に、モデルをトレーニングする必要があります。 通常、画像分類モデルのトレーニングには、大量のデータセットに集められた何百万ものサンプル画像をモデルに表示することが含まれます。

ただし、実際の画像データを使用すると、実用的かつ倫理的な懸念が生じる可能性があります。画像が著作権法に違反したり、人々のプライバシーを侵害したり、特定の人種または民族グループに対して偏見を持ったりする可能性があります。 これらの落とし穴を回避するために、研究者は画像生成プログラムを使用して、モデル トレーニング用の合成データを作成できます。 しかし、効果的なトレーニング データを作成できる画像生成プログラムを手動で設計するには、多くの場合、専門知識が必要になるため、これらの手法には限界があります。 研究者は、画像分類用のコンピューター ビジョン モデルを事前トレーニングするために、シンプルで精選されていない合成画像生成プログラムの大規模なコレクションを使用しました。 研究者はプログラムをキュレーションしたり変更したりしませんでした。各プログラムは数行のコードしか理解できませんでした。 この画像では、各行の画像セットは、3 つの異なる画像生成プログラムを使用して作成されました。 (画像:研究者提供)

MIT、MIT-IBM ワトソン AI ラボなどの研究者は、別のアプローチを取りました。 特定のトレーニング タスク用にカスタマイズされた画像生成プログラムを設計する代わりに、インターネットから公開されている 21,000 のプログラムのデータセットを収集しました。 次に、この基本的な画像生成プログラムの大規模なコレクションを使用して、コンピューター ビジョン モデルをトレーニングしました。

これらのプログラムは、単純な色とテクスチャを表示するさまざまな画像を生成します。 研究者はプログラムをキュレーションしたり変更したりしませんでした。各プログラムは数行のコードしか理解できませんでした。

彼らがプログラムのこの大規模なデータセットでトレーニングしたモデルは、合成的にトレーニングされた他のモデルよりも正確に画像を分類しました。 また、彼らのモデルは実際のデータでトレーニングされたモデルよりもパフォーマンスが劣っていましたが、研究者は、データセット内の画像プログラムの数を増やすとモデルのパフォーマンスも向上することを示し、より高い精度を達成する道筋を明らかにしました。

「キュレーションされていない多くのプログラムを使用することは、実際には、人々が操作する必要のある小さなプログラムのセットを使用するよりも優れていることがわかりました. データは重要ですが、実際のデータがなくてもかなりのことができることを示しました。この手法を説明する論文 (「表現学習のための手続き型画像プログラム」)。

共著者には、CSAIL の EECS 大学院生である Tongzhou Wang が含まれます。 ロジェリオ・フェリス、MIT-IBM ワトソン AI ラボの主任科学者兼マネージャー。 Antonio Torralba、Delta Electronics の電気工学およびコンピューター サイエンスの教授であり、CSAIL のメンバー。 EECSおよびCSAILの准教授である上級著者のPhillip Isola。 JPモルガン・チェース銀行やXyla, Inc.の他の研究者と共に研究を行った。この研究は、神経情報処理システム会議で発表される予定である。

プレトレーニングの再考

通常、機械学習モデルは事前トレーニングされています。つまり、最初に 1 つのデータセットでトレーニングされ、別のタスクに取り組むために使用できるパラメーターを構築するのに役立ちます。 X 線を分類するためのモデルは、実際の X 線のはるかに小さなデータセットを使用して実際のタスクのためにトレーニングされる前に、合成的に生成された画像の巨大なデータセットを使用して事前トレーニングされる場合があります。

これらの研究者は以前、少数の画像生成プログラムを使用してモデルの事前トレーニング用の合成データを作成できることを示しましたが、合成画像が実際の画像の特定の特性と一致するようにプログラムを慎重に設計する必要がありました。 これにより、技術のスケールアップが困難になりました。

新しい作品では、代わりに、キュレーションされていない画像生成プログラムの膨大なデータセットを使用しました。

彼らは、インターネットから 21,000 の画像生成プログラムのコレクションを収集することから始めました。 すべてのプログラムは単純なプログラミング言語で記述されており、コードのスニペットがわずかしか含まれていないため、画像をすばやく生成できます。

「これらのプログラムは、私たちが関心を持っているいくつかの特性を持つ画像を生成するために、世界中の開発者によって設計されています。 彼らは抽象芸術のようなイメージを生み出します」と Baradad 氏は説明します。

これらの単純なプログラムは非常に高速に実行できるため、研究者はモデルをトレーニングするために事前に画像を作成する必要がありませんでした。 研究者は、画像の生成とモデルのトレーニングを同時に行えることを発見しました。これにより、プロセスが合理化されます。

彼らは、画像生成プログラムの膨大なデータセットを使用して、教師ありと教師なしの両方の画像分類タスクのコンピューター ビジョン モデルを事前トレーニングしました。 教師あり学習では、画像データにラベルが付けられますが、教師なし学習では、モデルはラベルなしで画像を分類することを学習します。

精度の向上

事前トレーニング済みのモデルを、合成データを使用して事前トレーニング済みの最先端のコンピューター ビジョン モデルと比較したところ、モデルの方が正確でした。つまり、画像を正しいカテゴリに分類する頻度が高かったのです。 精度レベルは実際のデータでトレーニングされたモデルよりも依然として劣っていましたが、彼らの手法により、実際のデータでトレーニングされたモデルと合成データでトレーニングされたモデルとの間のパフォーマンスのギャップが 38% 縮小されました。

「重要なことは、収集するプログラムの数に応じて、パフォーマンスが対数的に変化することです。 パフォーマンスを飽和させないため、より多くのプログラムを収集すると、モデルのパフォーマンスがさらに向上します。 したがって、私たちのアプローチを拡張する方法があります」とマネルは言います。

研究者はまた、モデルの精度に寄与する要因を明らかにするために、個々の画像生成プログラムを事前トレーニングに使用しました。 彼らは、プログラムがより多様な画像セットを生成すると、モデルのパフォーマンスが向上することを発見しました。 また、キャンバス全体を満たすシーンを含むカラフルな画像が、モデルのパフォーマンスを最も向上させる傾向があることもわかりました。

この事前トレーニング アプローチの成功を実証した今、研究者は、テキストや画像を含むマルチモーダル データなど、他の種類のデータに技術を拡張したいと考えています。 また、画像分類のパフォーマンスを向上させる方法を引き続き模索したいと考えています。

「実際のデータでトレーニングされたモデルとのギャップはまだあります。 これにより、私たちの研究の方向性が決まり、他の人たちもそれに従うことを期待しています」と彼は言います。

Leave a Comment

Your email address will not be published. Required fields are marked *