Ce înseamnă de fapt un proces de generare a datelor (DGP)?
On noiembrie 18, 2020 by adminAm probleme cu înțelegerea exactă a ceea ce se înțelege prin DGP. Să spunem că se afirmă că „DGP este dat ca $ y = a + bx + e $ unde termenul de eroare îndeplinește toate ipotezele OLS. Înseamnă asta
a) Având în vedere cunoștințele despre valoarea $ x $ se descrie credința lor despre valoarea $ y $ ia cu distribuția probabilității pe partea dreaptă.
b) ceva care permite o interpretare cauzală?
edit: în Teoria econometrică și Metodele lui Davidson și Mckinnon la pagina 17 este scris că „modelul (1.01) poate fi interpretat ca un model pentru media lui y condiționată de x”. Pentru mine acest lucru pare să spună că modelul de regresie „adevărat” înseamnă ceea ce spun în a).
Pe pagina 114 este scris (ușor rezumat) „Să presupunem că modelul pe care îl estimăm este $ y = a + bx + e $ dar că DGP este $ y = a + bx + cz + e $ acest lucru va genera estimări părtinitoare dacă $ x $ și z sunt corelate „. Nu obțin ce ar trebui să însemne asta dacă ecuația de regresie descrie media lui y condiționată de x. Modelul „subspecificat” va produce un coeficient mai mare (sau mai mic) pentru a ține seama de corelație, totuși va fi încă corect descrie așteptarea $ y $ condiționată de x. Aici mi se pare că interpretează coeficienții de regresie ca însemnând schimbarea așteptată în y dacă regresorul este modificat de o unitate (într-o instanță specifică)
Comentarii
- ” DGP ” este adesea folosit fără nicio conotație filozofică: se referă la un model matematic. În special, în sine, nu face afirmații psihologice despre credințe. Modelul pe care l-ați scris nu are termeni și nici presupuneri implicite, acel timp de referință sau cauzalitate.
- prin credință mă refer la interpretarea bayesiană a probabilității ca la un grad de credință. Știu că Dacă interpretarea a) nu este cauzală, am editat întrebarea pentru a clarifica acest lucru.
- Ideea este că este una dintre multele interpretări posibile; este nu este DGP în sine. Dacă doriți să înțelegeți exact ce se înțelege prin DGP, consultați definiția matematică a acestuia sau priviți aplicațiile reale (indiferent de cadrul filosofic).
- Nu nu cred că urmez. Un DGP este o descriere matematică a realității (în econometrie se pare că deseori abstractizează realitatea la așa-numitul ” adevărat DGP „). Ceea ce spun este că afirmarea unui DGP pare să permită ambiguitate cu privire la ce afirmație despre realitate se face de fapt.
- Se pare că ați putea avea DGP care vine într-un context specific. Dacă da, vă rugăm să furnizați un citat și o citație mai mare?
Răspuns
DGP este procesul face ca datele să apară așa cum se întâmplă. Acestea sunt un ideal platonic pe care noi nu îl știm și nu îl putem cunoaște . Numai în cadrul simulărilor putem defini un DGP matematic, în lumea reală ele ne sunt ascunse.
Scopul modelării matematice este abstractizarea datelor. Aceasta înseamnă să luăm ceea ce știm și observăm și să încercăm să găsim o descriere mai generalizată a realității subiacente care să ne permită să facem predicții utile în situații noi. Se spune că pe acest site sunt utilizate pe scară largă că toate modelele sunt greșite, dar unele sunt utile, aceasta este cauza acestei ziceri.
„DGP este dat ca $ y = a + bx + e $ unde termenul de eroare îndeplinește toate ipotezele OLS. ” Este un polițist, deoarece termenul $ e $ încapsulează o gamă largă de contribuabili de ordin inferior la generarea de date. Orice a produs datele are o formă precisă, nu un termen de eroare ondulat manual. Ceea ce numim eroare este doar o variație pe care nu o putem „explica
a) Având în vedere cunoașterea valorii pe care le ia, s-ar descrie credința lor despre valoarea y ia cu distribuția probabilității pe partea dreaptă.
Acesta este scopul pe care încercăm să-l evaluăm sau credințele despre y pe baza x. Cu toate acestea, exemplul în mod izolat este înșelător procesul de generare a datelor, ceea ce este citat este un model de regresie nu un DGP. Aș prefera să scriu ceva de genul $ y = a + bx + cU_1 + … zU_i $ unde termenul $ e $ este împărțit într-o serie de factori subiacenți necunoscuți $ U $ de la 1 până la un $ i $ nedeterminat.Apoi încercăm să aflăm despre $ y $ făcând ipoteze $ y = a + bx + e $ și proiectând acel model pe date. Am descoperit că x nu este suficient pentru a se potrivi cu datele și, după ce ne-am bagat mai mult, ne dăm seama că un factor neidentificat anterior este legat, așa că putem înlocui $ U_1 $ cu $ z $ și colectați date noi pentru a testa noua ipoteză. Dacă se potrivește mai bine, atunci ne actualizăm convingerile despre DGP. Continuăm până ne epuizăm ideile, nu mai este posibil din punct de vedere economic să colectăm date suficient de precise pentru a elimina mai mulți termeni $ U_i $ , modelul funcționând suficient de bine pentru sau dintr-o serie întreagă de motive pragmatice. Nu ne oprim niciodată pentru că am încercat fiecare $ U_i $ termen posibil.
b) ceva care permite o interpretare cauzală?
Acest lucru se adâncește într-un teritoriu extrem de filosofic. Știința se bazează pe premisa că DGP-urile stau la baza realității și, prin gândire și experimentare atentă, putem descoperi acea realitate de bază. Folosim statistici pentru a compara rezultatul DGP cu ipoteza noastră despre ce este DPG și căutăm un mic $ e $ pentru a ne da credința că am captat un o parte semnificativă din DGP. Cu toate acestea, deoarece nu cunoaștem cu adevărat DGP, încercăm să cuantificăm riscul pe care îl asumăm.
Să presupunem că modelul pe care îl estimăm este $ y = a + bx + e $ dar că DGP este $ y = a + bx + cz + e $ aceasta va produce estimări părtinitoare dacă $ x $ și z sunt corelate „. Nu obțin ceea ce se presupune că înseamnă dacă ecuația de regresie descrie media lui y condiționată de x. ” subspecificat ” modelul va produce un coeficient mai mare (sau mai mic) pentru a ține seama de corelație, totuși va descrie în mod corect așteptarea lui Y condiționată de x. Aici mi se pare că interpretează coeficienții de regresie ca semnificând schimbarea așteptată în y dacă regresorul este schimbat cu o unitate (într-o instanță specifică)
Dacă modelul nu a fost expus la variații în $ U_i $ , în acest caz cristalizat ca $ z $ , nu poate explica corelația. Parte a relației dintre $ x $ și $ y $ depinde de un al treilea factor necunoscut care influențează natura relației dintre $ x $ și $ y $ . Dacă modificarea $ z $ nevăzută are un efect imprevizibil asupra relației x-y, deoarece nu a fost capturată. Dacă sunteți familiarizați cu PCA sau PLS sau metode similare, veți înțelege cât de corelate sunt subtilele și complexele. O matrice de corelație este un rezumat de nivel înalt care ascunde multe detalii. PCA poate despacheta o singură matrice de corelație în mai multe cauze subiacente distincte ale comportamentului corelat. Fiecare computer descrie un set unic de comportament corelat. În plus, fiecare computer este necorelat cu celelalte, așa că cunoașterea unui set de comportament corelat vă oferă zero informații despre celelalte. Trebuie să examinați în mod explicit fiecare posibilă corelație pentru a o explica.
totuși descrieți în mod corect așteptarea Y condiționată de x
Acest lucru va fi valabil în timp ce se aplică structura de corelație subiacentă, dar dacă nu ați investigat interacțiunea $ x $ și $ z $ , atunci nu știți când se defectează sau se modifică. Această problemă este cea care stă la baza necesității verificării modelelor în orice nouă populație sau situație. Un exemplu real din lumea z poate fi factorii dietetici nemăsurați care afectează o țintă analitică (x) corelată cu mortalitatea prin boală (y). De-a lungul anilor, obiceiurile dietetice ale populațiilor se schimbă, ceea ce poate schimba metabolismul analitului sau fiziologia subiacentă asupra căreia acționează analitul și de acolo afectează mortalitatea într-un mod diferit. pentru explicarea DGP în care folosim modele statistice de probabilitate foarte simple pentru a ne permite să prezicem comportamentul pe termen lung. Cu toate acestea, toate aceste modele de probabilitate au mecanisme fizice care le stau la baza. Luați în considerare aruncarea zarurilor, ce factori pot include acest lucru?Voi enumera câteva la care mă pot gândi:
-
Simetria zarurilor
-
Orientarea de pornire
-
Direcția aruncării
-
Forța aruncării
-
Topografie locală (forma suprafeței aruncate către)
-
Rotire
-
Coeficientul de frecare dintre zaruri și suprafață
-
Rotunjirea marginilor și colțurilor
-
Mișcarea aerului
-
Temperatura
Teoria din spatele DGP este că, dacă ai putea identifica și măsura cu precizie suficienți factori, ai putea prevedea rezultatul unei singure aruncări până la precizia dorită. Deci, să spunem că construim un model pentru aruncarea zarurilor într-un Las Vegas. cazinou și câștigăm atât de mult încât ajungem pe lista neagră în fiecare cazinou major (am uitat să pierdem suficient). Acum, luați acel model și aplicați-l într-o vizuină de jocuri de noroc slab întreținută, se va aplica în continuare suficient de precis pentru a câștiga mai mult decât pierdem? Nu știm până nu îl testăm.
Răspuns
Un proces de generare a datelor este un termen generic pentru orice proces care generează date. De exemplu, aruncarea zarurilor, o simulare Monte Carlo a datelor normale cu $ \ mathcal {N} (0,1) $ , suflând confetti în aer pentru a vedea câte piese aterizează într-o găleată în funcție de timp, aruncând săgeți către o marcă $ x $ pe un perete pentru a arăta un nor de date 2D, având o mână de poker dintr-un pachet marcat de cărți sau orice este nevoie pentru a genera date.
Lasă un răspuns