SQL によるダイバーシティとインクルージョンの分析


編集者による画像

過去 3 ~ 5 年間で、ダイバーシティ、エクイティ、インクルージョンに関連するポジションが急増していることは十分に文書化されています。 DEI アナリストは、次のような質問の追跡、分析、および回答に時間を費やす場合があります。

  • 給与は男女間でどのように比較されますか?
  • 私たちの部門は、人種の多様性に関してどのようにランク付けされていますか?
  • 最も多様性の低い役職と役職は?

DEI アナリストは、ビジネス アナリストとは異なる種類の質問に答えることに重点を置いていますが、同じ技術的スキルとテクニックを使用しています。

保護されたクラスは通常、 カテゴリカル: 性別、人種、民族、年齢 (通常、年齢はカテゴリに分類されます)

数値 給与などのデータは、保護されたクラス全体で集計できます。

  • 平均
  • 中央値
  • 最小
  • 最大

の組み合わせを分析すると、 カテゴリカル et un 数値 変数、SQL はそれを非常に簡単にします。

SELECT 
  ethnicity, 
  AVG(salary) as AVG_SALARY, 
  MEDIAN(salary) as MEDIAN_SALARY 
FROM 
  HRDATA 
GROUP BY 
  ethnicity
民族性 AVG_SALARY MEDIAN_SALARY
$68,513 $60,050
アフリカ系アメリカ人 $67,691 $55,114
アジア人 $68,842 $65,632

しかし、分析するためにどのような方法が存在しますか カテゴリカルカテゴリカル 一緒に変数? 標準的な選択肢は非常に限られています。

  • モード (最も一般的)
  • 個別カウント
SELECT 
  department, 
  COUNT(1) AS employees, 
  COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, 
  MODE(ethnicity) AS MOST_COMMON_ETHNICITY 
FROM 
  HRDATA 
GROUP BY 
  ethnicity
デパートメント 従業員 明確な性別 最も一般的な性別
汚れた 100 2
それ 100 2

一見すると、部門は非常に似ているように見えます。 しかし、次の違いをどのように見分けるでしょうか。

  • 売上は 99 男性社員と 1 女性社員
  • IT は 51 男性社員と 49 女性社員

確かに、後者の方がより多様であると考えるでしょうが、SQL を使用してそれをすばやく知るにはどうすればよいでしょうか?

私は、過小評価されている集計関数と呼ばれる関数について説明するためにここにいます。 エントロピ、これは、各部門の多様性を正確に定量化するのに役立ちます。

デパートメント 従業員 明確な性別 最も一般的な性別 エントロピ
汚れた 100 2 0.08
それ 100 2 0.99

残念ながら、単に SELECT Department, ENTROPY(ethnicity) を実行するほど簡単ではありませんが、SQL ロジックを教え、それをオープンソースの SQL Generator 5000 に追加して、いつでもこの SQL を生成できるようにします。それが必要。

Dr. Rich Huebner は、Kaggle.com でいくつかのサンプル HR データを提供しています。これを使用して、多様性を分析するいくつかの方法を調べることができます。

データをクエリして、Position と Race を比較することから始めましょう。 基本から始めましょう: Count、Count Distinct、および Mode。

SELECT 
  POSITION, 
  COUNT(1) AS employees, 
  COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, 
  MODE(RACEDESC) AS MOST_COMMON_RACE 
FROM HR_DATA
 WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY 
  POSITION
ORDER BY 2 DESC

結果を見ると、最も人気のある 3 つのポジションの多様性は非常に似ているように見えます。

では、これら 3 つの部門を多様性の観点からどのようにランク付けしますか? ここでエントロピーの出番です。

エントロピーとは?

先に進む前に、エントロピーとは何か、そしてそれをどのように解釈できるかを理解しましょう。 エントロピーの概念は、情報理論の研究に深く根ざしており、機械学習、熱力学、暗号化など、さまざまな用途があります。 したがって、定義を調べると、混乱する可能性があります。

しかし、エントロピーの最も単純な定義は、次のようなものです。 エントロピーは、何かがどれほど多様であるかを表す数値尺度です.

赤と青の 2 色しかないビー玉の袋を考えてみましょう。

さて、袋の中のビー玉を数えてみると、青いビー玉が 99 個、赤いビー玉が 1 個しかないことがわかりました。 この状況はそれほど多様ではないため、バッグのエントロピーは低くなります。

次に、50 個の青のビー玉と 50 個の赤のビー玉が入ったバッグを想像してください。 このバッグは非常に多様です。実際、これ以上多様化することはできません。 青ビー玉が51個、赤ビー玉が49個入った袋はちょっと 以下 多様。 したがって、このバッグは高いエントロピーを持っています。

したがって、

  • 100 個の青いビー玉と 0 個の青いビー玉が入った袋は、多様性が最も低くなります: エントロピー = 0
  • 50 個の青ビー玉と 50 個の赤ビー玉が入った袋が最も多様です: エントロピー = 1

したがって、エントロピーは 50/50 で最大 1 に達します。 エントロピーがビー玉の青の割合でどのように変化するかを示す一般的なプロットを次に示します。

SQL によるダイバーシティとインクルージョンの分析
クレジット: https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png

エントロピーを計算するには、各色のパーセンテージを計算し、式を覚えておきます。

SQL によるダイバーシティとインクルージョンの分析

次に、70% が青いビー玉であるバッグの場合、次のような式を作成します。

SQL によるダイバーシティとインクルージョンの分析

これを 2 つ以上の選択肢に拡張する場合は、可能性の数に一致するようにログの基数を変更するだけです。

これは、SQL が処理するかなり単純で効率的な操作です。

最終結果は、どちらの役職も完全に多様ではありませんが、エリア セールス マネージャーは生産技術者よりも多様であることを示しています。

これをグラフにプロットすることで視覚的に確認できます。

SQL によるダイバーシティとインクルージョンの分析

エントロピーは、多様性を説明するのに役立つ方法です。 部門、役職、または会社を、人種や性別などの保護されたクラスと組み合わせて並べ替えたり、ランク付けしたりできます。 関数はほとんどの RDMBS に直接存在しませんが、SQL を簡単に作成して計算できます。 ダイバーシティ、エクイティ、インクルージョンに携わるすべての人が、組織の労働力を検討する際にこれらの計算を使用することが重要であると私は信じています。 さらに、私のキャリアのほとんどでデータに携わってきたので、従来のデータ アナリストから DEI アナリストに至るまで、データに精通したすべてのチームで SQL の力が機能していることを確認できてうれしく思います。

ジョシュ・ベリー (@ツイッター) は Rasgo で Customer Facing Data Science を率い、2008 年からデータと分析の専門職に就いています。Josh は Comcast に 10 年間勤務し、そこでデータ サイエンス チームを構築し、社内で開発された Comcast 機能ストアの主要な所有者でした。市場に出回るフィーチャーストア。 Comcast に続いて、Josh は DataRobot で顧客向けデータ サイエンスを構築する重要なリーダーでした。 Josh は余暇に、野球、F1 レース、住宅市場予測などの興味深いトピックについて複雑な分析を行っています。

Leave a Comment

Your email address will not be published. Required fields are marked *