¿Qué significa realmente un proceso de generación de datos (DGP)?
On noviembre 18, 2020 by adminTengo algunos problemas para entender exactamente qué se entiende por DGP. Digamos que se dice que «el DGP se da como $ y = a + bx + e $ donde el término de error cumple con todos los supuestos de OLS. ¿Significa esto que
a) Dado el conocimiento del valor que toma $ x $ , uno describiría su creencia sobre el valor $ y $ toma con la distribución de probabilidad en el lado derecho.
b) ¿algo que permite una interpretación causal?
editar: en la teoría econométrica y Métodos de Davidson y Mckinnon en la página 17 está escrito que «el modelo (1.01) puede interpretarse como un modelo para la media de y condicional a x». Para mí, esto parece decir que el modelo de regresión «verdadero» significa lo que digo en a).
En la página 114 está escrito (ligeramente resumido) «Supongamos que el modelo que estimamos es $ y = a + bx + e $ pero que el DGP es $ y = a + bx + cz + e $ esto producirá estimaciones sesgadas si $ x $ yz están correlacionados «. No entiendo lo que se supone que significa esto si la ecuación de regresión describe la media de y condicionada a x. El modelo «subespecificado» producirá un coeficiente más alto (o más bajo) para tener en cuenta la correlación; sin embargo, seguirá siendo correcto describir la expectativa de $ y $ condicional en x. Aquí me parece que están interpretando los coeficientes de regresión como el cambio esperado en y si el regresor cambia por una unidad (en una instancia específica)
Comentarios
- » DGP » a menudo se usa sin ninguna connotación filosófica: se refiere a un modelo matemático. En particular, por sí mismo no hace afirmaciones psicológicas sobre creencias. El modelo que anotaste no tiene términos ni suposiciones implícitas, ese tiempo de referencia o causalidad.
- Por creencia, estoy haciendo referencia a la interpretación bayesiana de probabilidad como un grado de creencia. Si la interpretación a) no es causal, edité la pregunta para aclararlo.
- El punto es que es una de las muchas interpretaciones posibles; it ‘ no es el propio DGP. Si desea entender exactamente lo que se entiende por DGP, consulte su definición matemática o observe las aplicaciones reales (independientemente del marco filosófico).
- No ‘ No creo que te sigo. Un DGP es una descripción matemática de la realidad (en econometría uno parece abstraer la realidad a un llamado » verdadero DGP «). Lo que estoy diciendo es que declarar un DGP parece permitir la ambigüedad sobre qué declaración sobre la realidad se está haciendo realmente.
- Parece que tal vez tienes DGP en un contexto específico. Si es así, ¿podría proporcionar una cita y una cita más grandes?
Responder
El DGP son los procesos que hacer que los datos ocurran como lo hacen. Son un ideal platónico que no conocemos y no podemos conocer . Solo en simulaciones podemos definir un DGP matemático, en el mundo real están ocultos para nosotros.
El objetivo del modelado matemático es la abstracción de los datos. Esto significa tomar lo que sabemos y observamos y tratar de encontrar una descripción más generalizada de la realidad subyacente que nos permita hacer predicciones útiles en situaciones nuevas. Hay un dicho ampliamente utilizado en este sitio que dice que todos los modelos son incorrectos pero algunos son útiles, esta es la causa de ese dicho.
«el DGP se da como $ y = a + bx + e $ donde el término de error cumple todos los supuestos de MCO «. Es una excusa porque el término $ e $ encapsula una amplia gama de contribuyentes de orden inferior a la generación de datos. Lo que sea que haya producido los datos tiene una forma precisa, no un término de error ondulado a mano. Lo que llamamos error es sólo una variación que «no podemos explicar
a) Dado el conocimiento del valor que toma x, uno describiría su creencia sobre el valor y toma con la distribución de probabilidad en el lado derecho.
Ese es el objetivo que intentamos evaluar o creencias sobre y basadas en x. Sin embargo, el ejemplo aisladamente es engañoso con respecto al proceso de generación de datos, lo que se cita es un modelo de regresión, no un DGP. Preferiría escribir algo como $ y = a + bx + cU_1 + … zU_i $ donde el término $ e $ se divide en una serie de factores subyacentes desconocidos $ U $ desde 1 hasta un $ i $ indeterminado.Luego intentamos aprender sobre $ y $ hipotetizando $ y = a + bx + e $ y proyectando ese modelo en los datos. Descubrimos que x no es suficiente para ajustar los datos y, después de buscar más, nos damos cuenta de que un factor no identificado anteriormente está relacionado, por lo que podemos reemplazar $ U_1 $ con $ z $ y recopila nuevos datos para probar la nueva hipótesis. Si encaja mejor, actualizamos nuestras creencias sobre el DGP. Continuamos hasta que nos quedemos sin ideas, ya no es económicamente posible recopilar datos lo suficientemente precisos como para eliminar más términos de $ U_i $ , el modelo funciona lo suficientemente bien para nuestro necesidades o por una gran cantidad de razones pragmáticas. Nunca nos detenemos porque hemos probado todos los $ U_i $ término posible.
b) algo que permite una interpretación causal?
Esto se está adentrando en un territorio extremadamente filosófico. La ciencia se basa en la premisa de que los DGP sustentan la realidad y, a través del pensamiento cuidadoso y la experimentación, podemos descubrir esa realidad subyacente. Usamos estadísticas para comparar el resultado del DGP con nuestra hipótesis de qué es el DPG y buscamos un pequeño $ e $ para darnos fe de que hemos capturado un parte significativa de la DGP. Sin embargo, debido a que nunca conocemos realmente el DGP, intentamos cuantificar el riesgo que estamos tomando.
Supongamos que el modelo que estimamos es $ y = a + bx + e $ pero que el DGP es $ y = a + bx + cz + e $ esto producir estimaciones sesgadas si $ x $ yz están correlacionados «. No entiendo lo que se supone que significa esto si la ecuación de regresión describe la media de y condicional a x. La » subespecificada » El modelo arrojará un coeficiente más alto (o más bajo) para tener en cuenta la correlación; sin embargo, seguirá describiendo correctamente la expectativa de Y condicional a x. Aquí me parece que están interpretando los coeficientes de regresión como el cambio esperado en y si el regresor se cambia en una unidad (en una instancia específica)
Si el modelo no ha sido expuesto a variaciones en $ U_i $ , en este caso cristalizado como $ z $ , no puede dar cuenta de la correlación. Parte de la relación entre $ x $ y $ y $ depende de un tercer factor desconocido que influye en la naturaleza de la relación entre $ x $ y $ y $ . Si el $ z $ invisible cambia, tiene un efecto impredecible en la relación x-y porque no se ha capturado. Si está familiarizado con PCA o PLS o métodos similares, comprenderá cuán sutiles y complejas son las correlaciones. Una matriz de correlación es un resumen de alto nivel que oculta muchos detalles. PCA puede descomponer una única matriz de correlación en varias causas subyacentes distintas de comportamiento correlacionado. Cada PC describe un conjunto único de comportamientos correlacionados. Además, cada PC no está correlacionada con las demás, por lo que conocer un conjunto de comportamientos correlacionados le brinda cero información sobre los demás. Tienes que mirar explícitamente cada posible correlación para explicarla.
Sin embargo, sigue describiendo correctamente la expectativa de Y condicional en x
Esto será cierto mientras se aplique la estructura de correlación subyacente, pero si no ha investigado la interacción de $ x $ y $ z $ , entonces no sabe cuándo se descompone o cambia. Esta cuestión es la que subyace a la necesidad de verificar modelos en cualquier nueva población o situación. Un ejemplo del mundo real de z puede ser factores dietéticos no medidos que afectan un objetivo analítico (x) correlacionado con la mortalidad por enfermedad (y). Con el paso de los años, los hábitos alimentarios de las poblaciones cambian, lo que puede cambiar el metabolismo del analito o la fisiología subyacente sobre la que actúa el analito y, desde allí, afecta la mortalidad de una manera diferente.
@Carl proporciona algunos ejemplos de escenarios de uso común para explicar el DGP, donde utilizamos modelos estadísticos de probabilidad muy simples que nos permiten predecir el comportamiento a largo plazo. Sin embargo, todos estos modelos de probabilidad tienen mecanismos físicos que los sustentan. Considere lanzar los dados, ¿qué factores pueden incluir eso?Enumeraré algunos en los que puedo pensar:
-
Simetría de los dados
-
Orientación inicial
-
Dirección de lanzamiento
-
Fuerza de lanzamiento
-
Topografía local (la forma de la superficie se lanza hacia)
-
Giro
-
Coeficiente de fricción entre los dados y la superficie
-
Redondez de bordes y esquinas
-
Movimiento de aire
-
Temperatura
La teoría detrás de DGP es que si pudiera identificar y medir con precisión suficientes factores, entonces podría predecir el resultado de un solo lanzamiento dentro de la precisión deseada. Así que digamos que construimos un modelo para tirar dados en Las Vegas casino y ganamos tanto que nos ponen en la lista negra en todos los casinos importantes (nos olvidamos de perder lo suficiente). Ahora tome ese modelo y aplíquelo a un garito de juego con corrientes de aire mal mantenido, ¿se aplicará con la suficiente precisión para ganar más de lo que perdemos? No lo sabremos hasta que lo probemos.
Respuesta
Un proceso de generación de datos es un término genérico para cualquier proceso que genera datos. Por ejemplo, tirar dados, una simulación de Monte Carlo de datos normales con $ \ mathcal {N} (0,1) $ , soplar confeti en el aire para ver cuántas piezas caen dentro de un cubo en función del tiempo, lanzando dardos a una marca de $ x $ en una pared para mostrar una nube de datos 2D, repartiendo una mano de póquer de una baraja de cartas marcada o lo que sea necesario para generar datos.
Deja una respuesta