¿Por qué los investigadores utilizan una validación cruzada de 10 veces en lugar de realizar pruebas en un conjunto de validación?
On noviembre 30, 2020 by adminHe leído muchos trabajos de investigación sobre clasificación de sentimientos y temas relacionados.
La mayoría de ellos utilizan una validación cruzada de 10 veces para entrenar y probar clasificadores. Eso significa que no se realiza ninguna prueba / validación por separado. ¿Porqué es eso?
¿Cuáles son las ventajas / desventajas de este enfoque, especialmente para quienes investigan?
Comentarios
- ¿Está seguro de que no? ¿Se realizaron pruebas por separado?
- +1. Me he dado cuenta de lo mismo. Muchas veces, la validación cruzada de 10 veces es el resultado final informado.
Respuesta
Esta no es una problema si el CV está anidado , es decir, todas las optimizaciones, selecciones de funciones y selecciones de modelos, ya sea que utilicen CV o no, son envuelto en un gran CV.
¿Cómo se compara esto con tener un conjunto de validación adicional? Si bien el conjunto de validación generalmente es solo una parte seleccionada más o menos al azar de todos los datos, es simplemente el equivalente a una iteración de CV. Con este fin, en realidad es un método peor porque puede ser fácilmente sesgado por (con suerte) un conjunto de validación seleccionado o seleccionado por suerte / desafortunadamente.
La única excepción a esto son las series de tiempo y otras datos donde importa el orden del objeto; pero requieren un tratamiento especial de cualquier manera.
Respuesta
La razón principal es que el estimador de validación cruzada de k-veces tiene un menor varianza que un estimador de conjunto de reserva única, lo que puede ser muy importante si la cantidad de datos disponibles es limitada. Si tiene un único conjunto de reserva, donde el 90% de los datos se utilizan para entrenamiento y el 10% para pruebas, el conjunto de pruebas es muy pequeño, por lo que habrá mucha variación en la estimación de rendimiento para diferentes muestras de datos. o para diferentes particiones de los datos para formar conjuntos de prueba y entrenamiento. La validación de k veces reduce esta variación promediando k particiones diferentes, por lo que la estimación de rendimiento es menos sensible a la partición de los datos. Puede ir aún más lejos mediante la validación cruzada repetida de k veces, donde la validación cruzada se realiza utilizando diferentes particiones de los datos para formar k subconjuntos, y luego tomando el promedio sobre eso también.
Sin embargo, tenga en cuenta que todos los pasos del procedimiento de ajuste del modelo (selección del modelo, selección de características, etc.) deben realizarse de forma independiente en cada pliegue del procedimiento de validación cruzada, o la estimación de rendimiento resultante tendrá un sesgo optimista.
Respuesta
[EDITADO a la luz del comentario]
Creo que hay un problema si usa los resultados de CV para seleccionar entre múltiples modelos.
CV le permite usar todo el conjunto de datos para entrenar y probar un modelo / método, al tiempo que puede tener una idea razonable de qué tan bien se generalizará. Pero si está comparando varios modelos, mi instinto es que la comparación de modelos consume el nivel adicional de aislamiento de prueba de tren que le brinda CV, por lo que el resultado final no será una estimación razonable de la precisión del modelo elegido.
Supongo que si crea varios modelos y elige uno en función de su CV, está siendo demasiado optimista sobre lo que ha encontrado. Se necesitaría otro conjunto de validación para ver qué tan bien el ganador generaliza.
Comentarios
- Gracias. Así es. Pero mi pregunta era especialmente sobre por qué los artículos de investigación carecen de una validación final. ¿Se trata de menos datos o porque el CV funciona bien y no es ‘ necesaria una validación separada?
- El enfoque de la división de datos es muy ineficiente. Hasta que tanto el entrenamiento como los conjuntos de prueba sean enormes, el error cuadrático medio para una estimación del rendimiento futuro probable para un modelo predictivo es menor con bootstrapping o ingenio h 100 repeticiones de validación cruzada de 10 veces, asumiendo que los procedimientos de remuestreo tenían acceso a todos los pasos de modelado que involucraban $ Y $. Utilice la división de datos cuando también necesite validar el proceso de medición, el instrumento de encuesta u otros procedimientos relacionados con el significado de los datos. Un buen uso de la división de datos es cuando la instrumentación varía según el país.
Respuesta
-
En mi experiencia, la razón principal suele ser que no tiene suficientes muestras.
En mi campo (clasificación de muestras biológicas / médicas), a veces un conjunto de pruebas se mantiene separado, pero a menudo comprende solo unos pocos casos. que los intervalos de confianza de los casos suelen ser demasiado amplios para ser de alguna utilidad. -
Otra ventaja de la validación cruzada repetida / iterada o la validación fuera de bootstrap es que usted crea un montón de Modelos «sustitutos». Se supone que son iguales. Si no lo son, los modos son inestables.De hecho, puede medir esta inestabilidad (con respecto al intercambio de algunos casos de entrenamiento) comparando los modelos sustitutos en sí o las predicciones que hacen diferentes modelos sustitutos para el mismo caso.
-
Este documento de Esbensen & Geladi ofrece una buena discusión sobre algunas limitaciones de la validación cruzada.
Puede tener cuidado de la mayoría de ellos, pero un punto importante que no se puede abordar mediante la validación de remuestreo es la deriva, que está relacionada con el punto de mbq:La única excepción a esto son series de tiempo y otros datos donde el orden de los objetos importa
Deriva significa que, por ejemplo, la respuesta / calibración verdadera de un instrumento cambia lentamente con el tiempo. Por lo tanto, el error de generalización para casos desconocidos puede no ser el mismo que para casos desconocidos futuros . Llega a instrucciones como «rehacer la calibración diariamente / semanalmente / …» si encuentra una desviación durante la validación, pero esto necesita conjuntos de prueba adquiridos sistemáticamente más tarde que los datos de entrenamiento.
(Puede hacer divisiones «especiales» que toman en tiempo de adquisición de la cuenta, si su experimento se planifica como corresponde, pero por lo general no cubrirá todo el tiempo que le gustaría probar para detectar la desviación)
Respuesta
¿Por qué deberíamos realizar una validación cruzada en lugar de utilizar un conjunto de validación independiente?
Aurélien Géron habla de esto en su libro
Para evitar «desperdiciar» demasiados datos de entrenamiento en conjuntos de validación, una técnica común es usar la validación cruzada.
En lugar de otros valores k, ¿por qué preferimos usar k = 10 en la validación cruzada?
Para responder th En primer lugar, me gustaría agradecer a Jason Brownlee, PhD por su excelente tutorial . en la validación cruzada de k-fold. Estoy citando uno de sus libros citados.
Kuhn & Johnson habló sobre la elección del valor k en su libro .
La elección de k suele ser 5 o 10, pero no hay una regla formal. A medida que k aumenta, la diferencia de tamaño entre el conjunto de entrenamiento y los subconjuntos de remuestreo se reduce. A medida que esta diferencia disminuye, el sesgo de la técnica se vuelve más pequeño (es decir, el sesgo es menor para k = 10 que para k = 5 ). En este contexto, el sesgo es la diferencia entre los valores estimados y verdaderos de rendimiento
Entonces, se puede decir que por qué no usamos dejar uno -salida de validación cruzada (LOOCV) ya que el valor k es máximo allí y, por lo tanto, el sesgo será mínimo allí. En ese libro, también han hablado de por qué podemos preferir 10 veces CV en lugar de preferir LOOCV.
Desde un punto de vista práctico, los valores más grandes de k son más computacionalmente gravoso. En el extremo, LOOCV es más exigente computacionalmente porque requiere tantos ajustes de modelo como puntos de datos y cada ajuste de modelo utiliza un subconjunto que es casi del mismo tamaño del conjunto de entrenamiento. Molinaro (2005) descubrió que dejar uno fuera y k = 10 veces la validación cruzada arrojaron resultados similares, indicando que k = 10 es más atractivo desde la perspectiva de la eficiencia computacional. Además, valores pequeños de k, digamos 2 o 3, tienen un alto sesgo pero son muy eficientes desde el punto de vista computacional.
He leído muchos trabajos de investigación sobre clasificación de sentimientos y temas relacionados. La mayoría de ellos utilizan una validación cruzada de 10 veces para entrenar y probar clasificadores. Eso significa que no se realiza ninguna prueba / validación por separado. ¿Por qué?
Si no usamos validación cruzada (CV) para seleccionar uno de los múltiples modelos (o no usamos CV para ajustar los hiperparámetros) , no es necesario hacer una prueba por separado. La razón es que el propósito de hacer una prueba separada se logra aquí en CV (por uno de los k pliegues en cada iteración). Diferentes hilos SE han hablado mucho de esto. Puede comprobarlo.
Al final, no dude en preguntarme si algo que he escrito no le resulta claro.
Deja una respuesta