Python で T 検定を実行する

T 検定: 最も一般的な仮説検定

今日のデータ駆動型の世界では、データが毎日生成され、消費されています。 このすべてのデータには、無数の隠されたアイデアや情報が含まれており、明らかにするのは大変です。 データ サイエンティストは通常​​、統計を使用してこの問題に取り組み、データに関する知識に基づいた推測を行います。 データに関する検証可能な仮定は、仮説と呼ばれます。 仮説検定は、仮説を実験的に検証するために使用される統計的検定方法です。 データ サイエンスでは、仮説検定でサンプル データの仮定を調べて、より大きなデータ母集団に関する洞察を導き出します。

仮説検定は、検定に使用される統計母集団パラメーターによって異なります。 統計で最も一般的な問題の 1 つは、2 つの母集団間の平均を比較することです。 これに対する最も一般的なアプローチは t 検定です。

この記事では、この一般的な統計テストについて説明し、Python プログラミング言語での簡単な例をいくつか示します。

T検定とは?

t 検定は、1908 年に William Sealy Gosset によってスチューデントの t 検定として開発されました。 Sealy は「Student」というペンネームで作品を発表しました。 この検定の目的は、2 つの関連または関連のないサンプル グループの平均値を比較することです。 仮説検定で使用され、関心のある母集団への仮定の適用可能性をテストします。

T 検定は、2 つのデータ グループにのみ適用できます。 3 つ以上のグループを比較する場合は、ANOVA などの他のテストに頼る必要があります。

T検定はいつ使用されますか?

もっている 片側t検定 は、母平均間の関係を 1 つの方向 (右裾または左裾) で決定する方向検定です。 もっている 両側t検定 は、いずれかの方向の母平均間に何らかの関係があるかどうかを判断する無方向検定です。

そのため、平均 1=平均 2 のように単一値の仮説が予想される場合は、片側検定が適しています。 両側検定は、仮説が平均を互いに上回るまたは下回ると想定している場合に、より意味があります。

仮定は何ですか?

T 検定は、データの 2 つのサンプル間の相関関係を判断するためのパラメトリック検定です。 T 検定では、未知の母集団パラメーターに関する次の仮定に従ってデータを分散する必要があります。

  • データ値は独立しており、連続しています。つまり、データの測定スケールは連続パターンに従う必要があります。
  • データは正規分布しています。つまり、プロットすると、そのグラフは釣鐘型の曲線に似ています。
  • データはランダムにサンプリングされます。
  • 両方のサンプル グループのデータの分散は類似しています。つまり、サンプルの標準偏差はほぼ同じです (2 サンプル t 検定に適用可能)。

T検定に含まれる手順は何ですか?

他の仮説検定と同様に、t 検定は次の手順で実行されます。

  • 仮説を述べます。 仮説は、帰無仮説 (H0) と、帰無仮説を棄却する対立仮説 (Ha) に分類されます。 帰無仮説と代替仮説は、実行されるテストのタイプに応じて定義されます。
  • サンプル データを収集します。
  • テストを実施します。
  • 帰無仮説 H0 を棄却するか、棄却しません。

T検定に含まれるパラメータは何ですか?

グループ平均と標準偏差に加えて、t 検定には、帰無仮説の妥当性の決定に関係する他のパラメーターがあります。 以下は、t 検定を実装する際に繰り返し言及されるパラメーターのリストです。

  • T統計量: t 検定は、データ全体を t 統計量と呼ばれる 1 つの値に減らします。 この単一の値は、述べられた仮説に対する証拠の尺度として機能します。 ゼロに近い t 統計量は、仮説に対する最低の証拠を表します。 t 統計量の値が大きいほど、仮説に対する強力な証拠を表します。
  • P値: p 値は、t 統計量が偶然に発生した確率のパーセンテージです。 これは小数で表されます。たとえば、0.05 の p 値は、帰無仮説が真であると仮定して、t 統計量が少なくとも計算されたものと同じくらい極端になる確率が 5% であることを表します。
  • 重要なレベル: 有意水準は、真の帰無仮説を棄却する確率のパーセンテージです。 これはまた呼ばれます アルファ.

T検定にはどのような種類がありますか?

含まれるサンプル グループの数とタイプに応じて、t 検定には主に 3 つのタイプがあります。 各タイプの詳細と実装について説明します。

1. 1 サンプル T 検定

1 サンプル t 検定では、サンプル グループの平均値を仮想平均値と比較します。 このテストは単一のサンプル グループに対して行われるため、この名前が付けられました。 ワンサンプルテスト。 この検定の目的は、サンプル グループが仮想母集団に属しているかどうかを識別することです。

方式

t=m-s/n
Where,
t= T-statistic
m= group mean
= preset mean value (theoretical or mean of the population)
s= group standard deviation
n= size of group

実装

ステップ 1: 検定の仮説を定義する (帰無仮説と代替仮説)

次の仮説を述べてください。

  • 帰無仮説 (H0): サンプル平均 (m) は、仮想平均以下です。 (<=m)
  • 対立仮説 (Ha): サンプル平均 (m) が仮想平均よりも大きい。 (>m)

ステップ 2: Python ライブラリをインポートする

必要なライブラリのインポートから始めます。 Python では、stats ライブラリは、以下を含む t 検定に使用されます。 test_1サンプル 関数を使用して、1 サンプル t 検定を実行します。

scipy から numpy を np としてインポート numpy.random から統計をインポート numpy.random からシードをインポート numpy.random から randn をインポート scipy.stats から通常をインポート ttest_1samp をインポート

ステップ 3: ランダム サンプル グループを作成する

通常の関数を使用して、20 個の値のランダム サンプル グループを作成します。 numpy.random 図書館。 平均を 150、標準偏差を 10 に設定します。

シード=(1) サンプル = 通常(150,10,20) print(‘サンプル: ‘, サンプル)

ステップ 4: テストを実施する

使用 test_1サンプル 関数を使用して、1 サンプル t 検定を実行します。 をセットする ポップミーン 帰無仮説 (サンプル平均 <= 母集団平均) に従って、パラメーターを 155 に設定します。 この関数は t 統計量 値と p値 デフォルトで両側検定を実行します。 片側検定の結果を得るには、p 値を 2 で割って、有意水準 0.05 と比較します (検定とも呼ばれます)。 アルファ)。

t_stat, p_value = ttest_1samp(sample, popmean=155) print(“T-統計値: “, t_stat) print(“P-値: “, p_value)

負の t 値は、標本平均の極値の方向を示し、標本平均と母平均の差には影響しません。

ステップ 5: 帰無仮説を棄却する基準を確認する

帰無仮説では、標本平均が仮説平均以下であると仮定します。

  • p 値 <= alpha の場合、帰無仮説を棄却する
  • p値 > アルファの場合、帰無仮説を棄却できません
  • 結果に基づいて仮説を棄却する、または棄却しない

結果は、0.21 の p 値を示しています。これは = 0.05 より大きく、帰無仮説を棄却できません。 したがって、この検定では、標本平均が仮説平均よりも小さいと結論付けられます。

2. 2 サンプル T 検定

独立サンプル検定とも呼ばれる 2 サンプル t 検定では、2 つの独立サンプル グループの平均値が比較されます。 2 サンプル t 検定は、2 つの異なる母集団に属するサンプルの平均を比較することを目的としています。

方式

t=mA- mBs2nA+s2nB
Where,
mA and mB = means of the two samples
nA and nB = sizes of the two samples
s2 = common variance of the two samples

実装

ステップ 1: 仮説を定義する (帰無仮説と代替仮説)

有意水準 =0.05 について次の仮説を述べます。

  • 帰無仮説 (H0): 独立標本平均 (m1 と m2) が等しい。 (m1=m2)
  • 対立仮説 (Ha): 独立標本平均 (m1 と m2) が等しくありません。 (m1!=m2)

ステップ 2: ライブラリをインポートする

必要なライブラリのインポートから始めます。 以前と同様に、統計ライブラリは、 test_ind 独立標本 t 検定 (2 標本検定) を実行する関数。

numpy.random から numpy.random からシードをインポート numpy.random から randn をインポート scipy.stats からノーマルをインポート ttest_ind をインポート

ステップ 3: 2 つの独立したサンプル グループを作成する

を使用して 正常乱数ジェネレーターの関数を使用して、値が 50、平均が異なり (30 と 33)、標準偏差がほぼ同じ (16 と 18) の 2 つの正規分布の独立したサンプルを作成します。

乱数発生器をシードする

シード(1)

2 つの独立したサンプル グループを作成する

sample1=通常(30, 16, 50) sample2=通常(33, 18, 50) print(‘サンプル1:’,sample1) print(‘サンプル2:’,sample2)

ステップ 4: テストを実施する

使用 test_ind 関数を使用して 2 サンプル t 検定を実行します。 この関数は t 統計量 値と p値.

t_stat, p_value = ttest_ind(sample1, sample2) print(“T統計値: “, t_stat) print(“P値: “, p_value)

ステップ 5: 帰無仮説を棄却する基準を確認する

帰無仮説では、標本平均が等しいと仮定します。

  • p 値 <= alpha の場合、帰無仮説を棄却する
  • p値 > アルファの場合、帰無仮説を棄却できません
  • 結果に基づいて各仮説を棄却する、または棄却しない

結果は 0.04 の p 値を示しており、これは alpha=0.05 より小さく、帰無仮説を棄却しています。 したがって、この 2 標本の t 検定では、最初の標本の平均が 2 番目の標本の平均よりも大きいか小さいかのいずれかであると結論付けられます。

3.対応のあるt検定

対応のある t 検定は、従属標本検定とも呼ばれ、関連する 2 つの標本の平均を比較します。 サンプルは同じ集団に属し、さまざまな条件下で、たとえば異なる時点で分析されます。 このテストは、サンプルの条件を実験で変化させる前と後で調べる、事前テスト/事後テスト タイプの実験でよく使用されます。

方式


t=ms/n
Where,
t= T-statistic
m= group mean
s= group standard deviation
n= size of group

実装

ステップ 1: 仮説を定義する (帰無仮説と代替仮説)

有意水準 =0.05 について次の仮説を述べます。

  • 帰無仮説 (H0): 従属標本平均 (m1 と m2) が等しい (m1=m2)。
  • 対立仮説 (Ha): 従属標本平均 (m1 と m2) が等しくない (m1!=m2)

ステップ 2: Python ライブラリをインポートする

必要なライブラリのインポートから始めます。 インポート test_rel 統計ライブラリの関数を使用して、従属標本の t 検定 (対応のある t 検定) を実行します。

numpy.random から numpy.random からシードをインポート numpy.random から randn をインポート scipy.stats からノーマルをインポート ttest_rel をインポート

ステップ 3: 2 つの依存サンプル グループを作成する

簡単にするために、2 サンプル実装と同じランダム サンプルを使用します。 サンプルは同じ母集団からのものであると想定できます。

乱数発生器をシードする

シード(1)

2 つの従属サンプル グループを作成する

sample1=通常(30, 16, 50) sample2=通常(33, 18, 50) print(‘サンプル1:’,sample1) print(‘サンプル2:’,sample2)

ステップ 4: テストを実施する

着用 test_rel 2 つの従属/関連サンプルに対して 2 サンプル t 検定を実行する関数。 この関数は t 統計量 値と p値.

t_stat, p_value = ttest_rel(sample1, sample2) print(“T統計値: “, t_stat) print(“P値: “, p_value)

ステップ 5: 帰無仮説を棄却する基準を確認する

サンプル平均が等しいと仮定した帰無仮説の場合:

  • p 値 <= alpha の場合、帰無仮説を棄却する
  • p値 > アルファの場合、帰無仮説を棄却できません
  • 結果に基づいて仮説を棄却する、または棄却しない

結果は 0.05 の p 値を示し、これは 0.05 に等しいため、帰無仮説は棄却されます。 したがって、この対応のある t 検定は、最初のサンプルの平均が 2 番目のサンプルの平均よりも大きいか小さいかのいずれかであると結論付けます。

t 検定がデータ分析に役立つのはなぜですか?

t 検定は用途の広いツールです。 データ サイエンティストは、これらのテストを使用して、データの観察結果と、それらの観察結果が真である確率を検証します。 これは、分析に母集団データ全体を含めるというオーバーヘッドなしで、観測値を比較するための実証済みのアプローチです。

新製品の購入数のテストから各国間の経済成長の比較まで、仮説検定は企業にとって重要な統計ツールであり、統計学者にとって最も重要なツールの 1 つです。 データが関係するところはどこでも、t 検定はデータの結果を検証する上で重要な役割を果たします。


こちらにも掲載。

読み込み中
. . . コメント& もっと!

Leave a Comment

Your email address will not be published. Required fields are marked *