Pourquoi les chercheurs utilisent-ils la validation croisée par 10 au lieu de tester sur un ensemble de validation?
On novembre 30, 2020 by adminJai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes.
La plupart dentre eux utilisent la validation croisée par 10 pour former et tester les classificateurs. Cela signifie quaucun test / validation séparé nest effectué. Pourquoi donc?
Quels sont les avantages / inconvénients de cette approche, en particulier pour ceux qui font des recherches?
Commentaires
- Êtes-vous sûr que non un test distinct a été effectué?
- +1. Jai remarqué la même chose. Plusieurs fois, la validation croisée par 10 est le résultat final rapporté.
Réponse
Ce nest pas un problème si le CV est imbriqué , cest-à-dire que toutes les optimisations, sélections de fonctionnalités et sélections de modèles, quelles utilisent elles-mêmes CV ou non, sont enveloppé dans un gros CV.
Comment cela se compare-t-il à un jeu de validation supplémentaire? Bien que lensemble de validation ne soit généralement quune partie plus ou moins aléatoire de lensemble des données, il sagit simplement dun équivalent dune itération de CV. À cette fin, cest en fait une méthode pire car elle peut être facilement biaisée par (espérons-le) un jeu de validation sélectionné par chance / malchance ou trié sur le volet.
Les seules exceptions à cela sont les séries chronologiques et autres les données où lordre des objets est important; mais ils nécessitent un traitement spécial dans un cas comme dans lautre.
Réponse
La raison principale est que lestimateur de validation croisée k-fold a un variance inférieure à celle dun seul estimateur densemble de retenue, ce qui peut être très important si la quantité de données disponibles est limitée. Si vous avez un seul ensemble dexclusion, où 90% des données sont utilisées pour la formation et 10% pour les tests, lensemble de test est très petit, il y aura donc beaucoup de variation dans lestimation des performances pour différents échantillons de données, ou pour différentes partitions des données pour former des ensembles dapprentissage et de test. La validation de k fois réduit cette variance en faisant la moyenne sur k partitions différentes, de sorte que lestimation des performances est moins sensible au partitionnement des données. Vous pouvez aller encore plus loin en répétant la validation croisée de k fois, où la validation croisée est effectuée en utilisant différents partitionnements des données pour former k sous-ensembles, puis en prenant également la moyenne sur cela.
Notez cependant que toutes les étapes de la procédure dajustement du modèle (sélection du modèle, sélection des caractéristiques, etc.) doivent être effectuées indépendamment dans chaque volet de la procédure de validation croisée, sinon lestimation des performances qui en résulte sera biaisée de manière optimiste.
Réponse
[MODIFIÉ à la lumière du commentaire]
Je pense quil y a un problème si vous utilisez les résultats du CV pour sélectionner parmi plusieurs modèles.
CV vous permet dutiliser lensemble de données pour former et tester un modèle / une méthode, tout en étant capable davoir une idée raisonnable de la façon dont il généralisera. Mais si vous comparez plusieurs modèles, mon instinct est que la comparaison de modèles utilise le niveau supplémentaire disolement de test de train que CV vous donne, donc le résultat final ne sera pas une estimation raisonnable de la précision du modèle choisi.
Je suppose donc que si vous créez plusieurs modèles et en choisissez un en fonction de son CV, vous êtes trop optimiste quant à ce que vous avez trouvé. Un autre jeu de validation serait nécessaire pour voir dans quelle mesure le le gagnant généralise.
Commentaires
- Merci. Cest vrai. Mais ma question portait surtout sur les raisons pour lesquelles les articles de recherche nont pas été validés? Est-ce quil y a moins de données ou parce que le CV fait du bon travail et quune validation séparée nest ‘ t nécessaire?
- Lapproche de la division des données est très Jusquà ce que les ensembles dapprentissage et de test soient énormes, lerreur quadratique moyenne pour une estimation des performances futures probables dun modèle prédictif est plus petite avec bootstrap h 100 répétitions de 10 fois la validation croisée, en supposant que les procédures de rééchantillonnage avaient accès à toutes les étapes de modélisation qui impliquaient $ Y $. Utilisez le fractionnement des données lorsque vous devez également valider le processus de mesure, linstrument denquête ou dautres procédures liées à la signification des données. Une bonne utilisation du fractionnement des données est lorsque linstrumentation varie selon les pays.
Réponse
-
Daprès mon expérience, la raison principale est généralement que vous ne disposez pas de suffisamment déchantillons.
Dans mon domaine (classification des échantillons biologiques / médicaux), parfois un ensemble de tests est séparé, mais il ne comprend souvent que quelques cas. que les intervalles de confiance des cas sont généralement trop larges pour être utiles. -
Un autre avantage de la validation croisée répétée / itérée ou de la validation hors bootstrap est que vous créez un tas de modèles «de substitution». On suppose quils sont égaux. Sils ne le sont pas, les modes sont instables.Vous pouvez en fait mesurer cette instabilité (par rapport à léchange de quelques cas dentraînement) en comparant soit les modèles de substitution eux-mêmes, soit les prédictions que font différents modèles de substitution pour le même cas.
-
Cet article dEsbensen & Geladi donne une belle discussion sur certaines limites de la validation croisée.
Vous pouvez prendre soin de vous de la plupart dentre eux, mais un point important qui ne peut pas être abordé par la validation du rééchantillonnage est la dérive, qui est liée au point de mbq:La seule exception à cela se trouvent des séries chronologiques et dautres données où lordre des objets compte.
La dérive signifie que, par exemple, la réponse / le véritable étalonnage dun instrument change lentement avec le temps. Ainsi, lerreur de généralisation pour les cas inconnus peut ne pas être la même que pour les cas futurs inconnus. Vous arrivez à des instructions telles que « refaire létalonnage quotidien / hebdomadaire / … » si vous trouvez une dérive lors de la validation, mais cela nécessite des ensembles de tests systématiquement acquis plus tard que les données dentraînement.
(Vous pouvez faire des fractionnements « spéciaux » qui prennent en temps dacquisition du compte, si votre test est planifié en conséquence, mais généralement, cela ne couvrira pas autant de temps que vous souhaitez tester pour la détection de dérive)
Réponse
Pourquoi devrions-nous faire une validation croisée au lieu dutiliser un ensemble de validation séparé?
Aurélien Géron en parle dans son livre
Pour éviter de «gaspiller» trop de données dentraînement dans les ensembles de validation, une technique courante consiste à utiliser la validation croisée.
Au lieu dautres valeurs k, pourquoi préférons-nous utiliser k = 10 dans la validation croisée?
Pour répondre à la question est, dans un premier temps, je voudrais remercier Jason Brownlee, PhD pour son excellent tutoriel sur la validation croisée k-fold. Je cite lun de ses livres cités.
Kuhn & Johnson a parlé du choix de la valeur k dans leur livre .
Le choix de k est généralement de 5 ou 10, mais il ny a pas de règle formelle. À mesure que k augmente, la différence de taille entre lensemble dapprentissage et les sous-ensembles de rééchantillonnage diminue. À mesure que cette différence diminue, le biais de la technique devient plus petit (cest-à-dire le biais est plus petit pour k = 10 que k = 5 ). Dans ce contexte, le biais est la différence entre les valeurs estimées et vraies de performance
Ensuite, on peut dire que pourquoi nous nutilisons pas de laisser-un -out validation croisée (LOOCV) car la valeur de k y est maximale et donc, le biais y sera le moins élevé. Dans ce livre, ils ont également expliqué pourquoi nous pouvons préférer 10 fois CV au lieu de préférer LOOCV.
Dun point de vue pratique, des valeurs plus élevées de k sont plus lourd de calcul. À lextrême, LOOCV est le plus exigeant en termes de calcul, car il nécessite autant dajustements de modèle que de points de données et chaque ajustement de modèle utilise un sous-ensemble qui a presque la même taille que lensemble dapprentissage. Molinaro (2005) a constaté que la validation croisée de type « Leave-One-Out » et k = 10 fois donnait des résultats similaires, indiquant que k = 10 est plus attractif du point de vue de lefficacité de calcul. De plus, les petites valeurs de k, disons 2 ou 3, ont un biais élevé mais sont très efficaces en termes de calcul.
Jai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart dentre eux utilisent la validation croisée par 10 pour former et tester les classificateurs. Cela signifie quaucun test / validation séparé nest effectué. Pourquoi?
Si nous nutilisons pas la validation croisée (CV) pour sélectionner lun des multiples modèles (ou nous nutilisons pas CV pour régler les hyper-paramètres) , nous navons pas besoin de faire de test séparé. La raison en est que le but de faire un test séparé est accompli ici dans CV (par lun des k plis à chaque itération). Différents fils SE en ont beaucoup parlé. Vous pouvez vérifier.
À la fin, nhésitez pas à me demander si quelque chose que jai écrit nest pas clair pour vous.
Laisser un commentaire