Cosa significa effettivamente un processo di generazione dei dati (DGP)?
Su Novembre 18, 2020 da adminHo qualche difficoltà a capire esattamente cosa si intende per DGP. Supponiamo che sia affermato che “il DGP è dato come $ y = a + bx + e $ dove il termine di errore soddisfa tutti i presupposti OLS. Significa che
a) Data la conoscenza del valore che $ x $ richiede, si descriverebbe la propria convinzione sul valore $ y $ prende con la distribuzione di probabilità sul lato destro.
b) qualcosa che consente uninterpretazione causale?
modifica: in Econometric Theory e Metodi di Davidson e Mckinnon a pagina 17 è scritto che “il modello (1.01) può essere interpretato come un modello per la media di y condizionata a x”. A me questo sembra dire che il modello di regressione “vero” significa quello che dico in a).
A pagina 114 è scritto (leggermente riassunto) “Supponiamo che il modello che stimiamo sia $ y = a + bx + e $ ma che il DGP è $ y = a + bx + cz + e $ questo produrrà stime distorte se $ x $ ez sono correlati “. Non capisco cosa dovrebbe significare se lequazione di regressione descrive la media di y condizionata a x. Il modello “sottospecificato” produrrà un coefficiente più alto (o più basso) per tenere conto della correlazione, ma sarà comunque corretto descrivere laspettativa di $ y $ condizionale su x. Qui mi sembra che stiano interpretando i coefficienti di regressione nel senso del cambiamento atteso in y se il regressore viene modificato da ununità (in unistanza specifica)
Commenti
- ” DGP ” spesso è usato senza alcuna connotazione filosofica: si riferisce a un modello matematico. In particolare, di per sé non fa asserzioni psicologiche sulle credenze. Il modello che hai scritto non ha termini e assunzioni implicite, quel tempo di riferimento o causalità.
- per credenza mi riferisco allinterpretazione bayesiana della probabilità come un grado di credenza. So che t se linterpretazione a) non è causale, ho modificato la domanda per renderlo più chiaro.
- Il punto è che è una delle tante interpretazioni possibili; ‘ non è il DGP stesso. Se vuoi capire esattamente cosa si intende per DGP, consulta la sua definizione matematica o guarda le applicazioni effettive (indipendentemente dal quadro filosofico).
- I don ‘ non credo di seguire. Un DGP è una descrizione matematica della realtà (in econometria sembra spesso astrarre la realtà a un cosiddetto ” vero DGP “). Quello che sto dicendo è che laffermazione di un DGP sembra consentire lambiguità su quale affermazione sulla realtà viene effettivamente fatta.
- Sembra che forse hai DGP che si presenta in un contesto specifico. In tal caso, potresti fornire una citazione e una citazione più grandi?
Risposta
Il DGP è il processo che fanno sì che i dati si verifichino come fanno. Sono un ideale platonico che non conosciamo e non possiamo conoscere . Solo nelle simulazioni possiamo definire un DGP matematico, nel mondo reale ci sono nascosti.
Lo scopo della modellazione matematica è lastrazione dei dati. Ciò significa prendere ciò che sappiamo e osservare e cercare di trovare una descrizione più generalizzata della realtà sottostante che ci consenta di fare previsioni utili in nuove situazioni. Cè un detto ampiamente utilizzato su questo sito che tutti i modelli sono sbagliati ma alcuni sono utili, questa è la causa di quel detto.
“il DGP è dato come $ y = a + bx + e $ dove il termine di errore soddisfa tutti i presupposti OLS. ” È una scappatoia perché il termine $ e $ racchiude unampia gamma di contributori di ordine inferiore alla generazione dei dati. Qualunque cosa abbia prodotto i dati ha una forma precisa, non un termine di errore ondulato a mano. Ciò che chiamiamo errore è solo una variazione che non possiamo “spiegare
a) Data la conoscenza del valore x assume, si descriverebbe la propria convinzione sul valore y prende con la distribuzione di probabilità sul lato destro.
Questo è lo scopo che proviamo a valutare o le convinzioni su y in base a x. Tuttavia lesempio isolatamente è fuorviante rispetto al processo di generazione dei dati, ciò che viene citato è un modello di regressione non un DGP. Preferirei scrivere qualcosa come $ y = a + bx + cU_1 + … zU_i $ dove il termine $ e $ è suddiviso in una serie di fattori sottostanti sconosciuti $ U $ da 1 fino a un $ i $ indeterminato.Proviamo quindi a conoscere $ y $ ipotizzando $ y = a + bx + e $ e proiettando quel modello sui dati. Troviamo che x non è abbastanza per adattare i dati e dopo aver esaminato più a fondo ci rendiamo conto che un fattore precedentemente non identificato è correlato, quindi possiamo sostituire $ U_1 $ con $ z $ e raccogliere nuovi dati per testare la nuova ipotesi. Se si adatta meglio, aggiorniamo le nostre convinzioni sul DGP. Continuiamo finché non esauriamo le idee, non è più economicamente possibile raccogliere dati sufficientemente accurati da eliminare più termini $ U_i $ , il modello funziona abbastanza bene per il nostro esigenze o per tutta una serie di ragioni pragmatiche. Non ci fermiamo mai perché abbiamo provato ogni $ U_i $ termine.
b) qualcosa che consente uninterpretazione causale?
Questo si sta approfondendo in un territorio estremamente filosofico. La scienza si basa sulla premessa che i DGP sono alla base della realtà e attraverso unattenta riflessione e sperimentazione possiamo scoprire quella realtà sottostante. Usiamo le statistiche per confrontare il risultato del DGP con la nostra ipotesi di cosa sia il DPG e cerchiamo un piccolo $ e $ per darci la certezza di aver catturato un parte significativa del DGP. Tuttavia, poiché non conosciamo mai veramente il DGP, cerchiamo di quantificare il rischio che stiamo correndo.
Supponiamo che il modello che stimiamo sia $ y = a + bx + e $ ma che il DGP è $ y = a + bx + cz + e $ questo produce stime distorte se $ x $ ez sono correlati “. Non capisco cosa dovrebbe significare se lequazione di regressione descrive la media di y condizionale su x. Il ” sottospecificato ” il modello produrrà un coefficiente più alto (o più basso) per tenere conto della correlazione, tuttavia descriverà ancora correttamente laspettativa di Y condizionata a x. Qui mi sembra che interpretino i coefficienti di regressione nel senso della variazione attesa in y se il regressore viene modificato di ununità (in unistanza specifica)
Se il modello non è stato esposto a variazioni in $ U_i $ , in questo caso cristallizzato come $ z $ , non può tenere conto della correlazione. Parte della relazione tra $ x $ e $ y $ dipende da un terzo fattore sconosciuto che influenza la natura della relazione tra $ x $ e $ y $ . Se il $ z $ invisibile cambia, ha un effetto imprevedibile sulla relazione x-y perché non è stato catturato. Se hai familiarità con PCA o PLS o metodi simili, capirai quanto siano sottili e complesse le correlazioni. Una matrice di correlazione è un riepilogo di alto livello che nasconde molti dettagli. La PCA può scompattare una singola matrice di correlazione in diverse cause distinte alla base del comportamento correlato. Ogni PC descrive un insieme unico di comportamenti correlati. Inoltre, ogni PC non è correlato agli altri, quindi conoscere un insieme di comportamenti correlati ti dà zero informazioni sugli altri. Devi esaminare esplicitamente ogni possibile correlazione per tenerne conto.
tuttavia descrivi ancora correttamente laspettativa di Y condizionale su x
Ciò rimarrà vero finché si applica la struttura di correlazione sottostante, ma se non hai esaminato linterazione di $ x $ e $ z $ allora non sai quando si rompe o cambia. Questo problema è ciò che sta alla base della necessità di verificare i modelli in ogni nuova popolazione o situazione. Un esempio del mondo reale di z può essere fattori dietetici non misurati che influenzano un obiettivo analitico (x) correlato alla mortalità per malattia (y). Nel corso degli anni le abitudini alimentari delle popolazioni cambiano, il che può cambiare il metabolismo dellanalita o la fisiologia sottostante su cui agisce lanalita e da lì influisce sulla mortalità in modo diverso.
@Carl fornisce alcuni esempi di scenari di uso comune per spiegare DGP dove usiamo modelli statistici di probabilità molto semplici per permetterci di prevedere il comportamento a lungo termine. Tuttavia, tutti questi modelli di probabilità hanno meccanismi fisici che li sostengono. Considera lidea di tirare i dadi, quali fattori possono includere questo?Ne elencherò alcuni che mi vengono in mente:
-
Simmetria dei dadi
-
Orientamento iniziale
-
Direzione di lancio
-
Forza di lancio
-
Topografia locale (forma della superficie è lanciata verso)
-
Rotazione
-
Coefficiente di attrito tra il dado e la superficie
-
Rotondità di bordi e angoli
-
Movimento daria
-
Temperatura
La teoria alla base del DGP è che se potessi identificare e misurare con precisione un numero sufficiente di fattori, potresti prevedere il risultato di un singolo lancio entro la precisione desiderata. Supponiamo quindi di costruire un modello per il lancio dei dadi a Las Vegas casinò e vinciamo così tanto che veniamo inseriti nella lista nera in tutti i principali casinò (ci siamo dimenticati di perdere abbastanza). Ora prendi quel modello e applicalo a una bisca mal tenuta e piena di spifferi, si applicherà ancora abbastanza accuratamente per vincere più di quanto perdiamo? Non lo sapremo finché non lo testeremo.
Risposta
Un processo di generazione di dati è un termine generico per qualsiasi processo che genera dati. Ad esempio, tirare i dadi, una simulazione Monte Carlo di dati normali con $ \ mathcal {N} (0,1) $ , che soffia coriandoli in aria per vedere quanti pezzi atterrano allinterno di un secchio in funzione del tempo, lanciando freccette a un segno $ x $ su un muro per mostrare una nuvola di dati 2D, che distribuisce una mano di poker da un mazzo di carte segnato o qualunque cosa serva per generare dati.
Lascia un commento