Meta AI の研究者は、偏ったデータ サンプルのバランスを取るための Python パッケージ「balance」をリリースしました

人工知能と機械学習は、主にこれらの分野における最近の技術進歩のおかげで、マーケティングなど、企業の成長に貢献するさまざまなタスクで不可欠なコンポーネントになりました。 ただし、AI には独自の課題があります。 機械学習アルゴリズムによって生成された結果が性差別的または差別的であると見なされるシナリオがいくつかあります。 たとえば、顔認識システムが人種差別的である可能性や、従業員の選考プロセスで性別が優遇され始める可能性があります。 これらの結果は、同じ根本原因、つまりデータ バイアスにまでたどることができます。

データ バイアスは、意図した使用法を正確に反映していないデータセットを使用して機械学習アルゴリズムをトレーニングした場合に発生する可能性があります。 偏りのあるデータは、関心のある母集団に対して過大または過小のインデックスを持ち、完全にランダムにサンプリングされていないデータとして定義されます。 偏ったデータの一例は調査データです。これは、感情や意見など、他の方法では定量化できないユーザー エクスペリエンスを知るために使用されます。 ただし、調査情報は自分で選択した一連の参加者から収集されるため、収集されたデータに偏りがある可能性が高くなります。

インサイトを直接推論したり、偏ったデータで機械学習モデルをトレーニングしたりすると、パフォーマンスの低いアルゴリズムが生成され、予測が不正確になる可能性があります。 したがって、データに偏りがあるかどうか、どのように偏りがあるかを理解し、必要に応じてそのような偏りを減らすために統計的手法を採用することが、実務家にとって重要です。 Meta では、基礎研究と製品に関する意思決定は調査データに大きく影響されます。 これは、研究者やエンジニアが統計調査技術を利用できるようにするソフトウェア ツールの需要が高まっていると研究者が考えた主な原因の 1 つです。 この問題の説明に取り組んでいる Meta の研究者は、次のように紹介しました。残高‘、歪んだデータ サンプルを調整するためのオープンソースの Python パッケージです。 Balance は、偏りのあるデータ サンプルを処理し、調整の有無にかかわらずそれらの偏りを評価するための、簡単で使いやすいフレームワークと方法論を提供します。

Python やプログラミングの経験がほとんどない研究者でも、パッケージを最大限に活用することでメリットを得ることができます。 調査からのサンプルなど、歪んだサンプルのバランスをとりたい人は誰でも、このパッケージを簡単に使用できます。 これには、人口統計学者、UX 研究者、市場研究者、データ サイエンティスト、統計学者が含まれます。 Balance は、データの偏りを特定し、重みを作成してデータのバランスを取ることから、重み付けされた推定値を作成し、重みの品質を評価することまで、本格的なワークフローを提供します。 その主な差別化要因の 1 つは、balance が Python で開発された数少ないオープンソースの調査統計ソフトウェアの 1 つであり、Python の柔軟な環境と十分にサポートされているオープンソース コミュニティを使用していることです。

Balance のメイン ワークフロー API は、3 つのステージで構成されています。 目的に対するデータの初期バイアスを理解することが最初のステップです。 次のステップは、傾向スコアに基づいてサンプル内の各ユニットの重みを作成し、データの偏りを調整することです。 計算された重みを適用した後、最終段階では、バイアスと分散のインフレを評価する必要があります。 研究者は、「調整ステップ」としても知られる第 2 ステップで選択できるいくつかのオプションを持っています。 パッケージを設計する際に研究者が心に留めていた主な目標は、どの分野で働く実務者を制限することではありませんでした. これにより、チームは、研究者が簡単に利用できる Pandas DataFrame 構造に基づいて構築されたシンプルな API を提供するようになりました。

Balance は Meta Open Source イニシアチブの一環として公開されており、Meta はこれをオープンソース化することで、研究者が容易にコラボレーションして技術について議論したり、ツールを開発したりできるように、「バランス」に関する実践者のコミュニティを育成することを目指しています。今後は調査研究を充実させる。 偏ったデータを扱いたい研究者、データ サイエンティスト、エンジニア、および Python で作業するその他の専門家は、ユース ケースを満たすために「balance」パッケージを検討することを強くお勧めします。


チェックアウト ツール、Github ブログ。 この研究のすべての功績は、このプロジェクトの研究者に帰属します。 また、忘れずに参加してください 私たちのRedditページ不協和音チャンネル、 と メールニュースレターでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Khushboo Gupta は MarktechPost のコンサルティングインターンです。 彼女は現在、ゴアのインド工科大学 (IIT) で B.Tech を目指しています。 彼女は、機械学習、自然言語処理、および Web 開発の分野に情熱を注いでいます。 彼女は、いくつかの課題に参加することで、技術分野についてさらに学ぶことを楽しんでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *