対応のあるt検定と対応のないt検定
On 1月 31, 2021 by admin20匹のマウスがあるとします。なんらかの方法でマウスをペアリングして、10ペアにします。この質問の目的のために、それはランダムなペアリングである可能性があります、またはそれは同じ同性愛者、同じ性別、同じ体重のマウスをペアリングしようとするような賢明なペアリングである可能性があります、またはそれは次のような意図的に愚かなペアリングである可能性がありますマウスを可能な限り等しくない体重でペアリングしようとしています。次に、乱数を使用して、各ペアの1匹のマウスを対照群に割り当て、もう1匹のマウスを治療群に割り当てます。私は今、実験を行い、治療対象のマウスのみを治療しますが、それ以外の点では、今行った配置にはまったく注意を払いません。
結果を分析する場合、対応のないt-を使用できます。テストまたは対応のあるt検定。もしあれば、答えはどのように異なりますか? (私は基本的に、推定する必要のある統計パラメータの体系的な違いに興味があります。)
これを尋ねる理由は、私が最近関わった論文が、対応のあるものを使用したことで生物学者から批判されたためです。対応のないt検定ではなく、t検定。もちろん、実際の実験では、状況は私がスケッチした状況ほど極端ではなく、私の意見では、対応の理由がありました。しかし、生物学者は同意しませんでした。
私がスケッチした状況では、対応のあるt検定を使用して、統計的有意性を誤って改善(p値を減少)することはできないようです。ペアリングが不適切な場合でも、ペアリングされていないテストではなく。ただし、マウスのペアリングが不十分な場合、統計的有意性が悪化する可能性があります。これは正しいですか?
回答
フランクとピーターの両方の主張に同意しますが、簡単な式があると思いますこれは問題の核心になり、OPが検討する価値があるかもしれません。
$ X $と$ Y $を、相関が不明な2つの確率変数とします。
$ Z = XY $とします
$ Z $の分散はどのくらいですか?
ここにあります簡単な式: $$ \ text {Var}(Z)= \ text {Var}(X)+ \ text {Var}(Y)-2 \ text {Cov }(X、Y)。 $$ $ \ text {Cov}(X、Y)> 0 $(つまり、$ X $と$ Y)の場合$は正の相関関係にあります)?
次に、$ \ text {Var}(Z)\ lt \ text {Var}(X)+ \ text {Var }(Y)$。この場合、介入の前後で同じ対象を扱っている場合など、正の相関のためにペアリングが行われる場合、独立したペアの差は、ペアになっていない場合の分散よりも分散が小さいため、ペアリングが役立ちます。この方法は分散を減らしました。テストはより強力です。これは、循環データで劇的に示すことができます。ワシントンDCの気温がニューヨーク市よりも高いかどうかを確認したいという本の例を見ました。そのため、両方の都市の月平均気温をたとえば2年間取得しました。もちろん、四季の関係で一年を通して大きな違いがあります。この変動は、対応のないt検定で差異を検出するには大きすぎます。ただし、同じ年の同じ月に基づくペアリングは、この季節的影響を排除し、ペアリングされた$ t $検定は、DCの平均気温がニューヨークよりも高い傾向があることを明確に示しました。 $ X_i $(月$ A $のニューヨークの気温)と$ Y_i $(月$ A $のDCの気温)は正の相関があります。これは、季節がニューヨークとDCで同じであり、都市が十分に近いため、頻繁に発生するためです。気温に影響を与える同じ気象システムを体験してください。 DCはさらに南にあるため、少し暖かくなる可能性があります。
共分散または相関が大きいほど、分散が減少することに注意してください。
ここで、$ \ text {Cov}(X、Y)$が負であるとします。
次に、$ \ text {Var}(Z) \ gt \ text {Var}(X)+ \ text {Var}(Y)$。 分散が実際に増加するため、ペアリングはペアリングしないよりも悪くなります!
$ X $と$ Y $が無相関の場合、どちらの方法を使用してもかまいません。 。 Peterのランダムペアリングのケースはこのような状況です。
コメント
- Michael、” < “および” > “は、Webページで特別な意味を持ちます。テキストの大きな帯が単に表示されなくなるのを防ぐために、必須です。方程式でそれらに$ \ TeX $マークアップを使用します(コードは” \ lt “および” \ gt “それぞれ)。この問題の原因となった2つの方程式をマークアップしました。今後は、投稿後すぐに投稿内容を読んで、自分が見ていると思っているものが他の人に表示されていることを確認してください。マークアップに問題がある場合は、モデレーターの注意を引くために投稿にフラグを付けてください。
- @whuberありがとうございます。特に添え字を付けるときに方程式をめちゃくちゃにすることが多いので、私は通常、投稿中と投稿後にチェックします。これを見逃すことは珍しいことであり、おそらくそれが長い投稿であり、私がやりたい、またはしなければならない何かに不注意に進んだために起こったのでしょう。時々電話が気を散らして、チェックするのを忘れます。投稿内のテキストが消える原因となる特殊記号については、それを観察しました。簡単な解決策は、記号の後にスペースを残すことだと思います。過去にそれがうまくいったと思います。
- +1、本当に的確です。 $ X $ & $ Y $がサンプル内で完全に無相関である場合、$ \ text {Var}(Z)= \ text {Var} (X)+ \ text {Var}(Y)$。
- @MichaelChernick Cov(X、Y)< 0の場合、質問:私の目標が実験からE [X] -E [Y]を推測することである場合、ペアの研究を行ったとしても、データを分析すると、実験結果がUNPAIREDランダム化の実現であると偽ることができます。実験。これはできますか?対になっていないランダムな実験を本当に行った場合、文字通り同じ結果を得ることができるからです。次に、各グループの平均を取り(ペアリングのものは無視します)、2つのグループの平均の差を取ります。これはE [Z]の不偏推定量です。推定量の分散には、…
- @MichaelChernickを使用してグループXとグループYの分散のサンプルを合計します
回答
ペアリングするよりも、基礎となるデータモデルを理解する方がおそらく良いでしょう。制御されていない不均一性に対処するためにペアリングが行われる場合、通常は(双生児研究を除いて)ペアリングがこの変動の原因を部分的にのみ制御し、重回帰がより適切になります。これは、連続変数でのマッチングでは、そのような変数で正確なマッチングを行うことができないため、残余の変動が生じることが多いためです。
コメント
- すべてが回帰を行う必要がありますが、David Cox ‘の本のような実験計画に関する本が、生物学的実験におけるペアリングまたはグループ化の重要性を強調しているのはなぜですか?ペアリングは、回帰に伴う線形依存の隠れた仮定を回避します。しかし、おそらく他の理由があります:誰か??
回答
2つのテスト(ペアとペアなし)は尋ねます彼らは異なる答えを得ることができるように異なる質問。正しいペアリングは、ほとんどの場合、ペアリングされていない場合よりも強力です。これが実際のペアリングのポイントです。したがって、ペアリングが正しいと言うので、ペアリングされたテストのp値は、ペアリングされていない同じデータの場合よりも低い可能性があります。もちろん、両方を実行して自分の目で確かめることもできます。
したがって、ジレンマに対する答えは統計的ではなく実質的です。ペアリングは正しいですか?
もっとわかりますかペアリングされていないテストよりもランダムペアリングの結果が重要ですか?見てみましょう:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
はい、できます。ここでは違いは非常に小さいですが、ペアリングされたものはより低いp。そのコードを数回実行しました。当然のことながら、一方のpが低い場合もあれば、もう一方のpが低い場合もありますが、すべての場合で差は小さかった。ただし、状況によっては、p値の差が大きくなる可能性があると確信しています。
コメント
- 回答ありがとうございますが、私の質問は尋ねました体系的なの違いについて。明らかに、x ‘とy ‘の長期的な実行では、xとyは非常によくペアになっているように見えることがあります。 、そして時折、意図的にひどくペアリングされているかのように。確かに、’は、xとyをランダムに選択したときに、p値の分布が2つのテストで同じであるかどうかの統計的な質問です。 ‘私よりも理論的な統計を知っている人にとって、p値の2つの理論的な分布を実際に計算するのはそれほど難しいことではないと思います。私の推測では、それらは同じだと思います。
- 私が関わった実際のケースでは、ペアになっていない場合のp値は約.04で、ペアになっている場合は.001でした。重要な生物学者によると、.04を引用する必要があります。私によると、p値の改善は、ペアリングが有効であったことを強く示しています。ここの統計には客観的な質問があり、客観的な答えがあり、’は、特定のペアリングの有効性に関する優れた生物学的判断の問題だけではないと主張します。 -後者はPeterFlomと批判的な生物学者の意見のようです。
- 統計が物語を物語っていると思います。両方の結果を開示する必要がありますが、データが正しく、相関が説明できる限り、相関が考慮されるため、対応のある検定の方が正確です。
回答
対応のあるt検定と対応のないt検定、および関連するp値について何が心配していたかがよくわかりました。見つけることは興味深い旅であり、その過程で多くの驚きがありました。マイケルの貢献を調査した結果、1つの驚きがありました。これは、実践的なアドバイスの観点からは非難されます。さらに、彼は、事実上すべての統計学者が信じていると私が思うことを述べており、これを支持するいくつかの賛成票を持っています。理論、それは文字通り正しくありません。私はp値の式を考え出し、次にその式を使用して反例に導く方法を慎重に考えることによってこれを発見しました。私はトレーニングによる数学者と反例は「数学者の反例」です。実際の統計では出会うことはありませんが、元の数式を尋ねたときに調べようとしていたようなものでした。 質問。
これは反例を与えるRコードです:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
次の機能に注意してください:XとYは差が大きく、ほぼ一定である2つの10タプル。多くの有効数字にとって、相関は1.000 …です。対応のない検定のp値は、対応のある検定のp値の約10 ^ 40分の1です。したがって、これはマイケルのアカウントと矛盾します。ただし、彼のアカウントを文字通り数学者スタイルで読む場合は、これでマイケルの回答に関連する私の回答の一部が終了します。
これがピーターの答え。私の最初の質問の議論の間に、私はコメントで、異なって聞こえるp値の2つの特定の分布が実際には同じであると推測しました。これを証明できます。さらに重要なのは、証明が明らかにすることです。 p値の基本的な性質。非常に基本的なため、(私が遭遇した)テキストで説明する必要はありません。すべての専門統計学者がその秘密を知っているかもしれませんが、私には、p値の定義は常に奇妙で人工的に見えました。統計学者の秘密を明かす前に、質問を指定しましょう。
$ n > 1 $とし、ランダムに独立して2つの$ n $-を選択します。いくつかの正規分布からのタプル。この選択からp値を取得する方法は2つあります。1つは対応のないt検定を使用する方法、もう1つは対応のあるt検定を使用する方法です。私の推測では、pの分布は-取得する値は2つのケースで同じです。最初に考え始めたとき、この推測はばかげていて間違っていたと判断しました。対応のない検定は$ 2(n-1)のt統計に関連付けられています。 )$自由度、および$ n-1 $自由度のt統計量の対応のある検定これらの2つの分布は異なるので、一体どうやって関連するp値の分布を同じにすることができますか?さらに考えて、私の推測のこの明らかな却下があまりにも簡単であることに気づきました。
答えは次の考慮事項から来ています。$ f:(0、\ infty)\ to(0、 \ infty)$は連続pdfです(つまり、その積分の値は1です)。座標を変更すると、関連する分布が$ [0,1] $の一様分布に変換されます。式は$$ p = \ int_t ^ \ infty f(s)\、ds $$であり、これは多くのテキストで説明されています。 p値のコンテキストでテキストが指摘していないのは、$ f $がtのpdfである場合、これがt統計量からp値を与える式であるということです。正確に -分布。 (私は、議論が本当に単純なので、できるだけ単純にしようとしています。より完全な議論では、片側と両側のt検定の扱いが少し異なり、2の因子が発生する可能性があり、t統計量が発生します。 $ [0、\ infty)$ではなく$(-\ infty、\ infty)$にある可能性があります。その雑然としたものはすべて省略します。)
p値を見つけるときにまったく同じ議論が当てはまります。統計の他の標準分布のいずれかに関連付けられています。ここでも、データがランダムに分布している場合(今回はいくつかの異なる分布に従って)、結果のp値は$ [0,1] $で均一に分布します。
これは対応のあるt検定と対応のないt検定にどのように適用されますか?ポイントは、上記のコードのように、サンプルが独立してランダムに選択された対応のあるt検定にあり、tの値は実際に次のようになります。 t分布($ n-1 $の自由度)したがって、XとYの選択を何度も複製した結果のp値は、$ [0,1] $の均一な分布に従います。同じことがtrです。今回はt分布に$ 2(n-1)$の自由度がありますが、対応のないt検定が必要です。それにもかかわらず、結果として得られるp値は、上記の一般的な議論により、$ [0,1] $にも一様分布しています。上記のPeterのコードを適用してp値を決定すると、$ [0,1] $の一様分布からランダムサンプルを抽出する2つの異なる方法が得られます。ただし、2つの答えは独立していません。
コメント
- 私は’ p値に不思議なセセットがあるとは思いません。それは困難な時期です。それは、ヌル仮説が真であるときに実際に観察された値よりも極端または極端な値を観察する確率です。あなたはあなたの式の1つでその権利を持っていたと思います。あなたはp-値は一様に分布しています。はい、ヌル仮説が真の場合は同意します。t検定では、ヌル仮説が真ではない可能性があることに注意してください。その場合、p値は均一ではありません。0の近くに集中する必要があります。
- 次に、2つの異なるテスト統計について説明します。1つはペアリングに基づいており、もう1つは例ではありません。回答で言及したかどうかは関係ありません。対応のないt検定には、2n-2の自由度を持つ中央のt分布があり、対応のあるt検定に対応するt分布には、n-1の自由度があります。したがって、自由度の数が多い方が、もう一方よりも標準正規分布に近くなります。これらのテストを実際のデータに適用する場合、それは重要ですか?番号! nが適度に大きい場合はそうではありません。
- 補足として、ペアの検定の制限は、すべてのデータをペアにできる場合に必要な等しいサンプルサイズを必要とすることです。ただし、対になっていないテストは、サンプルサイズが等しくない場合でも有効です。したがって、一般に、対になっていないテストにはn + m-2の自由度があります。
- あなたの答えは長く抽象的なものであり、私はそれを通り抜けようとしましたが、’反例を理解していません。 ‘どこで帰無仮説と実際のデータを考慮に入れているのかわかりません。観測されたp値は、データが与えられた場合の検定統計量の適切なt分布の積分です。 2つのt分布と同じ共通データセットのこれらの数値を比較します。観測データを条件とする場合、これらの一様分布は何の役割も果たしません。申し訳ありませんが、’あなたの答えが本当にあなたの質問に答えているとは思いません。
- マイケル:私が与えたRコードに集中してください。実行には1秒しかかかりません。帰無仮説は、XとYが同じ正規分布に由来するというものです。これは、もちろん、私の場合は非常に誤りです。私の例では、Cov(X、Y)> 0ですが、対応のない検定は、対応のある検定よりも重要です。
回答
別の視点を提供します。多くの場合、ペアリングはバイアスを減らすために行われます。曝露Eが継続的な結果Yの危険因子であるかどうかに関心があるとします。各E +被験者について、E-である年齢と性別が一致する被験者を取得します。これで、対応のあるt検定または対応のないt検定のいずれかを実行できます。マッチングを明示的に説明し、対応のあるt検定を実行する必要があると思います。それはデザインを考慮に入れるという点でより原則的です。分析でマッチングを考慮するかどうかは、バイアスと分散のトレードオフの問題です。分析でマッチングを考慮すると、バイアスに対する保護が強化されますが、分散が大きくなる可能性があります。対応のないt検定を実行する方が効率的かもしれませんが、バイアスに対する保護は提供されません。
コメントを残す