Comment un test t peut-il être utilisé pour comparer les distributions entre groupes de données?
On février 10, 2021 by adminJe comprends que le test t est utilisé pour tester la différence de moyennes pour deux populations lorsque les populations ont des variances relativement similaires, les unités sont indépendantes, et ils sont normaux (surtout avec des échantillons de plus petite taille).
Cependant, je me demandais comment les t-tests sont utilisés pour regarder la différence dans les distributions de données entre deux groupes? Je pose cette question parce que cest essentiellement le libellé utilisé par la question à laquelle je tente de répondre. Il demande de comparer si les distributions de lélément dintérêt sont différentes à laide dun test t.
La raison pour laquelle je suis confus est que, même si je comprends que la moyenne est un produit de la distribution et que les tests t peuvent être fortement affectés par les valeurs aberrantes, le test t peut donc donner des informations sur deux distributions, il pourrait y avoir un cas où les deux distributions étaient très similaires mais la taille de leffet était grande simplement parce quelles étaient centrées sur des moyennes différentes, et il pourrait y avoir un cas où les deux distributions semblaient géniales avec des variances de différence et ainsi de suite, et cela pourrait conduire à le même t-stat. Alors, comment être capable de dire quoi que ce soit à partir dun test t?
Commentaires
- Au fur et à mesure que vous écrivez, les tests t comparent les moyennes. Cest un aspect dune distribution. Les tests T ne comparent pas les variances, lasymétrie, laplatissement ou dautres aspects de la distribution. Veuillez nous indiquer ce que vous essayez de comparer.
- Cest ‘ une bonne question: beaucoup de gens qui ne connaissent pas aussi bien les idées statistiques quils le devraient be (ou pense quils le sont) utilise souvent des expressions comme » utiliser un test t pour tester [ou comparer] deux distributions » même si cela ne compare les distributions (ou populations) que dans le sens extrêmement limité de comparer leurs moyennes. Ainsi, lorsque le t-test rejette lhypothèse de moyennes égales, a fortiori les distributions diffèrent; mais dans de nombreux cas, le test t ne rejettera pas lhypothèse (peut-être parce que les moyennes sont vraiment égales) même si les distributions sont par ailleurs très différentes.
- Avec les hypothèses qui sont faites pour dériver la distribution de la statistique de test sous la valeur nulle, le t-test dégalité de variance habituel est en effet une comparaison de distributions, puisque la seule façon dont les distributions peuvent alors différer est par le fait quelles sont différentes.
Réponse
La configuration typique pour un test t à deux échantillons est:
$$ X_1, \ dots, X_n \ overset {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0: \ delta = 0 $$
$$ H_a: \ delta \ ne0 $$
$$ \ text {(Ou faites-le unilatéralement.)} $$
Par cette configuration, si vous trouvez quil y a t deux distributions différentes, le seul moyen pour que cela se produise est si elles diffèrent dans la moyenne.
Ensuite, vous voudrez peut-être dire que les variances sont inégales, ou au moins permettent cette possibilité, puis testez la moyenne différences de toute façon. Cela passe au test de Welch … qui ne teste toujours que les différences de moyenne. Il pourrait y avoir une différence de variance, et cela pourrait être plus intéressant quune différence de moyenne, mais le test de Welch ne devrait pas détecter les différences de variance.
Une simulation dans R le confirme.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
Au niveau $ 0,1 $ , nous rejetons environ 10% du temps, et au $ 0.05 $ -level, nous rejetons environ 5% du temps. Cest avec un échantillon assez grand de 1000, donc même les différences subtiles doivent être découvertes, mais elles ne le sont pas . Vous avez donc raison de dire que le test t ne fait pas grand chose pour vous si vous voulez examiner des différences qui ne sont pas seulement la moyenne.
Cependant, d’autres l’ont remarqué aussi, et là sont des tests pour les différences de distribution en général. Le test classique de distribution complète est le test Kolmogorov-Smirnnov (KS). Il examine la plus grande distance verticale (techniquement suprême) entre deux CDF (empiriques). Le test KS est connu pour avoir un manque de puissance pour rejeter les différences qui se trouvent dans les queues, mais il est toujours un test populaire. Certains autres incluent Anderson-Darling et Kuiper. Certains jouer avec des simulations mindique que Kuiper est le meilleur des trois pour détecter les différences de queue, bien que je n’ai pas été particulièrement minutieux dans mon enquête à ce sujet.
Ce que vous décidez d’explorer dépendra de ce que vous voulez savoir. assez bien pour que vous sachiez que les moyens sont différents, auquel cas, les tests t ou les tests Welch peuvent tout à fait convenir!
Réponse
Réponse partielle dans les commentaires:
Au fur et à mesure que vous écrivez, les tests t comparent les moyennes. Cest un aspect dune distribution. Les tests T ne comparent pas les variances, lasymétrie, laplatissement ou dautres aspects de la distribution. Veuillez nous indiquer ce que vous essayez de comparer.
– Peter Flom
Cest une bonne question: de nombreuses personnes qui ne sont pas aussi familiarisées avec les idées statistiques quelles devraient (ou pensent quelles le sont) utilisent souvent des expressions telles que « utiliser un test t pour tester [ou comparer] deux distributions » même bien que cela ne compare les distributions (ou populations) que dans le sens extrêmement limité de la comparaison de leurs moyennes. Ainsi, lorsque le test t rejette lhypothèse de moyennes égales, a fortiori les distributions diffèrent; mais dans de nombreux cas, le test t ne rejettera pas lhypothèse (peut-être parce que les moyennes sont vraiment égales) même si les distributions sont par ailleurs très différentes.
– whuber
Avec les hypothèses qui sont faites pour dériver la distribution de la statistique de test sous la valeur nulle , le test t habituel à variance égale est en effet une comparaison de distributions, puisque le onl La façon dont les distributions peuvent alors différer est par le fait quelles sont différentes.
– Glen_b
Laisser un commentaire