Was bedeutet eigentlich ein Datenerzeugungsprozess (DGP)?
On November 18, 2020 by adminIch habe Probleme, genau zu verstehen, was unter einem DGP zu verstehen ist. Nehmen wir an, es wird angegeben, dass der DGP als $ y = a + bx + e $ angegeben wird, wobei der Fehlerterm alle OLS-Annahmen erfüllt. Bedeutet dies, dass
a) Wenn man den Wert $ x $ kennt, würde man ihren Glauben an den Wert $ y $ nimmt mit der Wahrscheinlichkeitsverteilung auf der rechten Seite.
b) etwas, das eine kausale Interpretation erlaubt?
edit: in Econometric Theory and Methoden von Davidson und Mckinnon auf Seite 17 Es steht geschrieben, dass „das Modell (1.01) als Modell für den von x abhängigen Mittelwert von y interpretiert werden kann“. Für mich scheint dies zu sagen, dass das „wahre“ Regressionsmodell bedeutet, was ich in a) sage.
Auf Seite 114 steht geschrieben (leicht zusammengefasst): „Nehmen wir an, das Modell, das wir schätzen, ist $ y = a + bx + e $ , aber dass der DGP $ y = a + bx + cz + e $ ist Dies führt zu verzerrten Schätzungen, wenn $ x $ und z korreliert sind. Ich verstehe nicht, was dies bedeuten soll, wenn die Regressionsgleichung den Mittelwert von y beschreibt, der von x abhängig ist. Das „unterbestimmte“ Modell liefert einen höheren (oder niedrigeren) Koeffizienten, um die Korrelation zu berücksichtigen, es wird jedoch immer noch korrekt sein Beschreiben Sie die Erwartung von $ y $ , die von x abhängig ist. Hier scheint es mir, dass sie die Regressionskoeffizienten so interpretieren, dass sie die erwartete Änderung von y bedeuten, wenn der Regressor um geändert wird eine Einheit (in einer bestimmten Instanz)
Kommentare
- “ DGP “ wird oft ohne philosophische Konnotation verwendet: Es bezieht sich auf ein mathematisches Modell. Insbesondere macht es an sich keine psychologischen Aussagen über Überzeugungen. Das Modell, das Sie aufgeschrieben haben, enthält keine Begriffe und keine impliziten Annahmen. diese Referenzzeit oder Kausalität.
- Durch Glauben beziehe ich mich auf die bayesianische Interpretation der Wahrscheinlichkeit als Grad des Glaubens. Ich weiß, t Da die Interpretation a) nicht kausal ist, habe ich die Frage bearbeitet, um dies klarer zu machen.
- Der Punkt ist, dass dies eine von vielen möglichen Interpretationen ist; it ‚ ist nicht die DGP selbst. Wenn Sie genau verstehen möchten, was unter einem DGP zu verstehen ist, konsultieren Sie dessen mathematische Definition oder sehen Sie sich die tatsächlichen Anwendungen an (unabhängig vom philosophischen Rahmen).
- I don ‚ Ich glaube nicht, dass ich folge. Ein DGP ist eine mathematische Beschreibung der Realität (in der Ökonometrie scheint man die Realität häufig zu einem sogenannten “ wahren DGP “ zu abstrahieren). Was ich damit sagen will, ist, dass die Angabe einer DGP Unklarheiten darüber zuzulassen scheint, welche Aussage über die Realität tatsächlich gemacht wird.
- Es scheint, als ob Sie eine DGP in einem bestimmten Kontext haben. Wenn ja, würden Sie bitte ein größeres Zitat und Zitat hinzufügen?
Antwort
Der DGP ist der Prozess, der verursachen, dass Daten so auftreten, wie sie es tun. Sie sind ein platonisches Ideal, das wir nicht kennen und nicht wissen können . Nur in Simulationen können wir ein mathematisches DGP definieren, in der realen Welt sind sie uns verborgen.
Das Ziel der mathematischen Modellierung ist die Abstraktion der Daten. Dies bedeutet, das zu nehmen, was wir wissen und beobachten, und zu versuchen, eine allgemeinere Beschreibung der zugrunde liegenden Realität zu finden, die es uns ermöglicht, in neuen Situationen nützliche Vorhersagen zu treffen. Auf dieser Website wird häufig gesagt, dass alle Modelle falsch sind, aber einige nützlich sind. Dies ist die Ursache für dieses Sprichwort.
„Der DGP wird als $ angegeben y = a + bx + e $ wobei der Fehlerterm alle OLS-Annahmen erfüllt. “ Ist ein Cop out, weil der Begriff $ e $ eine Vielzahl von Mitwirkenden niedrigerer Ordnung zur Datengenerierung enthält. Was auch immer die Daten erzeugt hat, hat eine genaue Form, keinen handwelligen Fehlerbegriff. Was wir als Fehler bezeichnen, ist nur eine Variation, die wir nicht erklären können.
a) Wenn man den Wert x kennt, würde man ihren Glauben an den Wert y beschreiben nimmt mit der Wahrscheinlichkeitsverteilung auf der rechten Seite.
Dies ist das Ziel, das wir versuchen, basierend auf x zu bewerten oder Überzeugungen über y. Jedoch das Beispiel Für sich genommen ist es irreführend für den Datenerzeugungsprozess. Es wird ein Regressionsmodell zitiert, kein DGP. Ich würde lieber etwas schreiben wie $ y = a + bx + cU_1 + … zU_i $ wobei der Begriff $ e $ in eine Reihe unbekannter zugrunde liegender Faktoren aufgeteilt ist $ U $ von 1 bis zu einem unbestimmten $ i $ .Wir versuchen dann, $ y $ kennenzulernen, indem wir $ y = a + bx + e $ hypothetisieren und projizieren dieses Modell auf die Daten. Wir stellen fest, dass x nicht ausreicht, um zu den Daten zu passen, und nach mehrem Stöbern stellen wir fest, dass ein zuvor nicht identifizierter Faktor in Beziehung steht, sodass wir $ U_1 $ durch
b) etwas das erlaubt eine kausale Interpretation?
Dies dringt tiefer in extrem philosophisches Gebiet vor. Die Wissenschaft basiert auf der Prämisse, dass DGPs die Realität untermauern, und durch sorgfältiges Nachdenken und Experimentieren können wir diese zugrunde liegende Realität aufdecken. Wir verwenden Statistiken, um das Ergebnis der DGP mit unserer Hypothese zu vergleichen, was die DPG ist, und suchen nach einem kleinen $ e $ , um uns das Vertrauen zu geben, dass wir a erfasst haben bedeutender Teil der DGP. Da wir den DGP jedoch nie wirklich kennen, versuchen wir, das eingegangene Risiko zu quantifizieren.
Nehmen wir an, das von uns geschätzte Modell ist $ y = a + bx + e $ , aber dass der DGP $ y = a + bx + cz + e $ ist ergeben voreingenommene Schätzungen, wenn $ x $ und z korreliert sind „. Ich verstehe nicht, was dies bedeuten soll, wenn die Regressionsgleichung den Mittelwert von y beschreibt, der von x abhängig ist. Die “ unterbestimmte “ Das Modell liefert einen höheren (oder niedrigeren) Koeffizienten, um die Korrelation zu berücksichtigen. Es beschreibt jedoch immer noch die Erwartung von Y, die von x abhängig ist, korrekt. Hier scheint es mir, dass sie die Regressionskoeffizienten so interpretieren, dass sie die erwartete Änderung von y bedeuten Wenn der Regressor um eine Einheit geändert wird (in einer bestimmten Instanz)
Wenn das Modell keinen Abweichungen in $ U_i $ , in diesem Fall kristallisiert als $ z $ , kann die Korrelation nicht berücksichtigen. Ein Teil der Beziehung zwischen $ x $ und $ y $ hängt von einem unbekannten dritten Faktor ab, der die Art der Beziehung zwischen $ x $ und $ y $ . Wenn sich der unsichtbare $ z $ ändert, hat dies eine unvorhersehbare Auswirkung auf die x-y-Beziehung, da er nicht erfasst wurde. Wenn Sie mit PCA oder PLS oder ähnlichen Methoden vertraut sind, werden Sie verstehen, wie subtil und komplex Korrelationen sind. Eine Korrelationsmatrix ist eine Zusammenfassung auf hoher Ebene, die viele Details verbirgt. PCA kann eine einzelne Korrelationsmatrix in mehrere unterschiedliche Ursachen für korreliertes Verhalten entpacken. Jeder PC beschreibt einen eindeutigen Satz korrelierten Verhaltens. Darüber hinaus ist jeder PC nicht mit den anderen korreliert. Wenn Sie also über einen Satz korrelierten Verhaltens Bescheid wissen, erhalten Sie keine Informationen über die anderen. Sie müssen jede mögliche Korrelation explizit betrachten, um sie zu berücksichtigen.
Beschreiben Sie jedoch die Erwartung von Y unter der Bedingung x
Dies gilt, solange die zugrunde liegende Korrelationsstruktur gilt. Wenn Sie jedoch die Interaktion von $ x $ und $ z $ dann wissen Sie nicht, wann es kaputt geht oder sich ändert. Dieses Problem liegt der Notwendigkeit zugrunde, Modelle in jeder neuen Population oder Situation zu überprüfen. Ein reales Beispiel für z können nicht gemessene Ernährungsfaktoren sein, die ein analytisches Ziel (x) beeinflussen, das mit der Krankheitssterblichkeit (y) korreliert. Im Laufe der Jahre ändern sich die Ernährungsgewohnheiten der Populationen, was den Metabolismus des Analyten oder die zugrunde liegende Physiologie, auf die der Analyt einwirkt, verändern kann und von dort aus die Mortalität auf andere Weise beeinflusst.
@Carl bietet einige Beispiele für häufig verwendete Szenarien zur Erklärung von DGP, wo wir sehr einfache statistische Wahrscheinlichkeitsmodelle verwenden, um das langfristige Verhalten vorhersagen zu können. Allen diesen Wahrscheinlichkeitsmodellen liegen jedoch physikalische Mechanismen zugrunde. Betrachten Sie das Würfeln, welche Faktoren können das beinhalten?Ich werde einige auflisten, die mir einfallen:
-
Symmetrie der Würfel
-
Startorientierung
-
Wurfrichtung
-
Wurfkraft
-
Lokale Topographie (Form der Oberfläche wird geworfen Richtung)
-
Spin
-
Reibungskoeffizient zwischen Würfel und Oberfläche
-
Rundheit von Kanten und Ecken
-
Luftbewegung
-
Temperatur
Die Theorie hinter DGP lautet: Wenn Sie genügend Faktoren identifizieren und genau messen können, können Sie das Ergebnis eines einzelnen Wurfs mit der gewünschten Genauigkeit vorhersagen. Nehmen wir also an, wir bauen ein Modell für das Würfeln in Las Vegas Casino und wir gewinnen so viel, dass wir in jedem großen Casino auf die schwarze Liste gesetzt werden (wir haben vergessen, genug zu verlieren). Nehmen Sie nun dieses Modell und wenden Sie es auf eine schlecht gewartete, zugige Spielhölle an. Wird es immer noch genau genug angewendet, um mehr zu gewinnen als zu verlieren? Wir werden es nicht wissen, bis wir es testen.
Antwort
Ein Datengenerierungsprozess ist ein Oberbegriff für jeden Prozess, der generiert wird Zum Beispiel Würfeln, eine Monte-Carlo-Simulation normaler Daten mit $ \ mathcal {N} (0,1) $ , die Konfetti in die Luft bläst, um zu sehen Wie viele Teile landen als Funktion der Zeit in einem Eimer und werfen Pfeile auf eine $ x $ -Markierung an einer Wand, um eine 2D-Datenwolke anzuzeigen, die eine Pokerhand austeilt aus einem markierten Kartenspiel oder was auch immer zum Generieren von Daten erforderlich ist.
Schreibe einen Kommentar