t検定を使用して、データのグループ間の分布を比較するにはどうすればよいですか?
On 2月 10, 2021 by admint検定は、母集団の分散が比較的類似しており、単位が独立していて、2つの母集団の平均の差を検定するために使用されることを理解しています。それらは正常です(特にサンプルサイズが小さい場合)。
しかし、2つのグループ間のデータの分布の違いを調べるためにt検定をどのように使用するのか疑問に思いました。これは基本的に、私が答えようとしている質問で使用されている言い回しだからです。 t検定を使用して、対象のアイテムの分布が異なるかどうかを比較するように求められます。
私が混乱している理由は、平均が分布の積であり、t検定が外れ値の影響を強く受ける可能性があることを理解しているにもかかわらず、t検定が2つの分布に関する情報を提供する可能性があるためです。 2つの分布が非常に似ているが、平均が異なるという理由だけで効果量が大きい場合や、2つの分布が分散の違いなどでファンキーに見える場合があり、それが原因となる可能性があります。同じt-stat。では、どのようにしてt検定から何かを伝えることができるでしょうか?
コメント
- 書くとき、t検定は平均を比較します。それがディストリビューションの一面です。 T検定では、分散、歪度、尖度、または分布の他の側面を比較しません。何を比較しようとしているのかをお知らせください。
- それは'良い質問です。統計的アイデアに精通していない多くの人々は、 " t検定を使用して2つの分布をテスト[または比較]する これは、平均を比較するという非常に限られた意味でのみ分布(または母集団)を比較しますが。したがって、t検定が等しい平均の仮説を棄却する場合、フォルティオリの分布は異なります。ただし、多くの場合、分布が大きく異なる場合でも、t検定は仮説を棄却しません(おそらく平均が真に等しいため)。
- 分布を導出するために行われた仮定を使用します。 nullの下での検定統計量の場合、分布が異なる唯一の方法は手段が異なることであるため、通常の等分散t検定は実際に分布の比較です。
回答
2標本t検定の一般的な設定は次のとおりです。
$$ X_1、\ dots、X_n \ overset {iid} \ sim N(\ mu_x、\ sigma ^ 2)$$
$$ Y_1、\ dots、Y_m \ overset {iid} \ sim N(\ mu_x + \ delta、\ sigma ^ 2)$$
$ $ H_0:\ delta = 0 $$
$$ H_a:\ delta \ ne0 $$
$$ \ text {(または一方的に行う)} $$
この設定では、tがあることがわかった場合2つの異なる分布、それが発生する唯一の方法は、平均が異なる場合です。
次に、分散が等しくない、または少なくともその可能性を考慮に入れて、平均をテストすることをお勧めします。とにかく違い。それはウェルチの検定になります…それでも平均の違いを検定するだけです。分散に違いがある可能性があり、それは平均の違いよりも興味深いかもしれませんが、ウェルチの検定は分散の違いを捉えるべきではありません。
Rでのシミュレーションはこれを確認します。
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
$ 0.1 $ レベルでは、約10%の確率で拒否され、 $ 0.05 $ レベルでは、約5%の確率で棄却します。これはサンプルサイズが1000とかなり大きいため、微妙な違いも発見する必要がありますが、そうではありません。 。だから、平均だけではない違いを調べたいのなら、t検定はあまり役に立たないのは正しいです。
しかし、他の人もこれに気づいています。一般的な分布の違いのテストです。古典的な完全分布テストは、コルモゴロフ-スミルノフ(KS)テストです。これは、2つの(経験的)CDF間の最大(技術的に上限)の垂直距離を調べます。 KSテストには、尻尾に見られる違いを拒否する力がないことが知られていますが、それでも人気のあるテストです。アンダーソン-ダーリングやカイパーなどのテストもあります。シミュレーションで遊んでいる人は、次のことを示しています。 Kuiperは、尾の違いを検出するのに3つで最高ですが、これについての調査は特に徹底していません。
何を探索するかは、知りたいことによって異なります。おそらくそれです。手段が異なることを知っておくには十分です。その場合、tテストまたはウェルチテストはまったく問題ないかもしれません。
回答
コメントで部分的に回答:
あなたが書くとき、t検定は平均を比較します。それがディストリビューションの一面です。 T検定では、分散、歪度、尖度、または分布の他の側面を比較しません。比較しようとしているものをお知らせください。
– Peter Flom
良い質問です。統計的アイデアに精通していない(またはそう思っている)人の多くは、「t検定を使用して2つの分布をテスト[または比較]する」などのフレーズを使用することがよくあります。ただし、これは平均を比較するという非常に限られた意味でのみ分布(または母集団)を比較します。したがって、t検定が等しい平均の仮説を棄却する場合、分布は異なりますが、多くの場合、t検定は棄却しません。分布が大きく異なる場合でも、仮説(おそらく平均が真に等しいため)。
– whuber
nullの下での検定統計量の分布を導出するために行われた仮定を使用すると、通常の等分散t検定は実際に次の比較になります。 onl以降の分布分布が異なる可能性があるのは、手段が異なることです。
– Glen_b
コメントを残す