Microsoft AI Research は、DeepSpeed の新しいオープンソース Python ライブラリである DeepSpeed-MII を発表し、広く使用されている 20,000 以上の深層学習モデルを高速化します

出典: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/

オープンソース ソフトウェアにより、より多くの人々が AI にアクセスできるようになりましたが、その普及にはまだ 2 つの大きな障壁があります。それは、推論の遅延とコストです。

システムの最適化は長い道のりを歩んでおり、DL モデルの推論のレイテンシとコストを大幅に削減できますが、すぐに利用できるわけではありません。 多くのデータ サイエンティストは、特定のモデルに関連する一連のシステム最適化を正しく特定して実装するための専門知識を欠いているため、低レイテンシと低コストの推論は主に手の届かないものになっています。 モデル サイズ、アーキテクチャ、システム パフォーマンス特性、ハードウェア要件などのさまざまなバリエーションを含む、DL モデル推論ランドスケープの複雑な性質が、この可用性の欠如の主な原因です。

マイクロソフトが最近研究したオープンソースの DeepSpeed-MII は、同社が開発した新しいオープンソースの Python ライブラリで、高性能モデルの低レイテンシ、低コストの推論の広範な採用を促進します。 MII は、非常に効率的な実装を備えた数千の一般的な DL モデルへのアクセスを提供します。

MII は、トランスフォーマーのディープ フュージョン、マルチ GPU 推論の自動化されたテンソル スライス、ZeroQuant を使用したオンザフライ量子化、および低レイテンシ/コストの推論を提供するその他の最適化など、多くの DeepSpeed-Inference 最適化を使用します。 これらのモデルをオンプレミスおよび Azure で AML を介して低コストでデプロイでき、わずか数行のコードで最先端のパフォーマンスを提供します。

DeepSpeed-Inference は、内部で MII を駆動するエンジンです。 MII は、DeepSpeed システム推論の最適化を自動的に適用して、モデル タイプ、サイズ、バッチ サイズ、および利用可能なハードウェア リソースに基づいて、レイテンシを最小化し、スループットを最大化します。 これを達成するために、MII と DeepSpeed-Inference は、事前に指定された多くのモデル インジェクション ルールの 1 つを利用します。これにより、基礎となる PyTorch モデル アーキテクチャの決定と、その後の最適化された実装による置換が可能になります。 その結果、MII でサポートされている数千の一般的なモデルが、DeepSpeed の包括的な推論の一連の最適化にすぐにアクセスできるようになります。

Hugging Face、FairSeq、EluetherAI など、いくつかのオープンソース モデル リポジトリから数千の変換モデルにアクセスできます。 MII は、テキスト作成、質問応答、分類など、さまざまなアプリケーションをサポートしています。 これは、BERT、RoBERTa、GPT、OPT、および BLOOM アーキテクチャに基づくものを含む、数億のパラメーターを持つ非常に複雑なモデルで動作します。 さらに、Stable Diffusion などの最新の画像作成方法がサポートされています。

推論ワークロードは、主要な目標がレイテンシーを最小化することであるレイテンシー クリティカルであるか、主要な目標がコストを最小化することであるコスト センシティブである可能性があります。

MII が使用できる DeepSpeed-Inference バリアントは 2 つあります。 最初の ds-public は公開の DeepSpeed ライブラリに含まれており、前述の改善点のほとんどが含まれています。 2 番目の ds-azure は、MII を介してすべての Microsoft Azure ユーザーがアクセスでき、Azure とのより深い接続を提供します。 MII インスタンスは、MII-Public と MII-Azure の 2 つの DeepSpeed-Inference バリエーションを利用して呼び出すことができます。

オープン ソースの PyTorch 実装 (ベースライン) と比較して、MII-Public と MII-Azure は大幅な待機時間とコストの削減を提供します。 ただし、特定のジェネレーティブ ワークロードでは、異なるパフォーマンスを発揮する可能性があります。 MII は、さまざまなワークロードでさまざまなオープンソース モデルのレイテンシを最大 6 分の 1 に短縮できるため、バッチ サイズ 1 が一般的に使用されるレイテンシが重要なケースに最適です。 チームは、ベースラインと MII スループットを最大化してコストを最小限に抑える大きなバッチ サイズを採用しました。 結果は、Bloom や OPT などの高価な言語モデルが、MII を使用することで推論コストを大幅に削減できることを示しています。

MII-Public は、ローカルまたは任意のクラウド サービスで実行できます。 MII は最小限の GRPC サーバーを開発し、この展開を支援するための質問に対して GRPC 推論エンドポイントを提供します。 MII は、AML 推論を使用して Azure で使用できます。

研究者たちは、自分たちの研究が幅広いモデルをサポートすることを望んでいます。 彼らは、MII が推論の待ち時間とコストを即座に削減することで、強力な AI スキルをさまざまなアプリケーションや製品オファーに幅広く注入できるようになると信じています。

Github: https://github.com/microsoft/deepspeed-mii#supported-models-and-tasks

参考:https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/


Tanushree Shenwai は MarktechPost のコンサルティングインターンです。 彼女は現在、ブバネーシュワルのインド工科大学 (IIT) で学士号を取得しようとしています。 彼女はデータ サイエンスの愛好家であり、さまざまな分野での人工知能の適用範囲に強い関心を持っています。 彼女は、テクノロジーの新しい進歩とその実際のアプリケーションを探求することに情熱を注いでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *