Co właściwie oznacza proces generowania danych (MZD)?
On 18 listopada, 2020 by adminMam pewne problemy ze zrozumieniem, co dokładnie oznacza MZD. Powiedzmy, że jest powiedziane, że „MZD jest podany jako $ y = a + bx + e $ , gdzie składnik błędu spełnia wszystkie założenia OLS. Czy to oznacza
a) Biorąc pod uwagę znajomość wartości $ x $ , można by opisać ich przekonanie o wartości $ y $ ma rozkład prawdopodobieństwa po prawej stronie.
b) coś, co pozwala na interpretację przyczynową?
edytuj: w teorii ekonometrycznej i Metody Davidsona i Mckinnona na stronie 17 napisano, że „model (1.01) można interpretować jako model dla średniej y zależnej od x”. Wydaje mi się, że to wydaje mi się mówić, że „prawdziwy” model regresji oznacza to, co mówię w a).
Na stronie 114 jest napisane (nieco podsumowane) „Załóżmy, że szacowany model to $ y = a + bx + e $ , ale MZD to $ y = a + bx + cz + e $ przyniesie to błędne szacunki, jeśli $ x $ i z są skorelowane „. Nie rozumiem, co to ma znaczyć, jeśli równanie regresji opisuje średnią y zależną od x. Model „nieokreślony” da wyższy (lub niższy) współczynnik uwzględniający korelację, jednak nadal będzie on poprawny opisać oczekiwanie $ y $ zależnego od x. Wydaje mi się, że interpretują oni współczynniki regresji jako oznaczające oczekiwaną zmianę w y, jeśli regresor zostanie zmieniony o jedna jednostka (w konkretnym przypadku)
Komentarze
- ” DGP jest często używany bez żadnych konotacji filozoficznych: odnosi się do modelu matematycznego. W szczególności sam w sobie nie zawiera żadnych psychologicznych twierdzeń na temat przekonań. Model, który zapisałeś, nie zawiera żadnych terminów ani ukrytych założeń, ten czas odniesienia lub przyczynowość.
- przez przekonanie Odwołuję się do bayesowskiej interpretacji prawdopodobieństwa jako stopnia przekonania. Wiem, Jeśli interpretacja a) nie jest przyczynowa, zredagowałem pytanie, aby było jaśniejsze.
- Chodzi o to, że jest to jedna z wielu możliwych interpretacji; to ' nie jest samym MZD. Jeśli chcesz zrozumieć dokładnie , co oznacza MZD, zapoznaj się z jego definicją matematyczną lub spójrz na rzeczywiste aplikacje (niezależnie od ram filozoficznych).
- Nie ' chyba nadążam. MZD to matematyczny opis rzeczywistości (w ekonometrii często wydaje się abstrakcyjną rzeczywistość do tak zwanego ” prawdziwego MZD „). Chodzi mi o to, że stwierdzenie DGP wydaje się dopuszczać niejednoznaczność co do tego, jakie stwierdzenie na temat rzeczywistości jest faktycznie poczynione.
- Wygląda na to, że może pojawiać się DGP w określonym kontekście. Jeśli tak, czy mógłbyś podać większy cytat i cytat?
Odpowiedź
MZD to procesy, które powodują, że dane pojawiają się tak, jak to robią. To ideał platoński, którego nie znamy i nie możemy znać . Tylko w symulacjach możemy zdefiniować matematyczne MZD, w prawdziwym świecie są one przed nami ukryte.
Celem modelowania matematycznego jest abstrakcja danych. Oznacza to branie tego, co wiemy i obserwujemy, i próbę znalezienia bardziej uogólnionego opisu ukrytej rzeczywistości, który pozwoliłby nam na sformułowanie przydatnych przewidywań w nowych sytuacjach. Powszechnie używane w tej witrynie jest powiedzenie, że wszystkie modele są błędne, ale niektóre są przydatne. To jest przyczyna tego stwierdzenia.
„MZD jest podany jako $ y = a + bx + e $ , gdzie składnik błędu spełnia wszystkie założenia OLS. ” Jest wykrętem, ponieważ termin $ e $ zawiera w sobie szeroką gamę niższych rangą współtwórców do generowania danych. Cokolwiek stworzyło dane, ma precyzyjną formę, a nie falistą, ręcznie wyrażoną nazwę błędu. To, co nazywamy błędem, jest po prostu wariacją, której nie możemy „wyjaśnić”
a) Mając wiedzę o wartości x, można by opisać swoje przekonanie o wartości y przyjmuje z rozkładem prawdopodobieństwa po prawej stronie.
To jest cel, który próbujemy ocenić lub przekonania o y oparte na x. Jednak przykład w izolacji jest mylące, jeśli chodzi o proces generowania danych, cytowany jest model regresji, a nie MZD. Wolałbym napisać coś w rodzaju $ y = a + bx + cU_1 + … zU_i $ , gdzie termin $ e $ jest podzielony na szereg nieznanych czynników źródłowych $ U $ od 1 do nieokreślonego $ i $ .Następnie próbujemy dowiedzieć się czegoś o $ y $ , zakładając hipotezę $ y = a + bx + e $ i przewidując ten model na dane. Okazuje się, że x nie wystarcza, aby dopasować dane, a po dalszych poszukiwaniach zdajemy sobie sprawę, że wcześniej niezidentyfikowany czynnik jest powiązany, więc możemy zastąpić $ U_1 $ na $ z $ i zbierz nowe dane, aby przetestować nową hipotezę. Jeśli lepiej pasuje, zaktualizujmy nasze przekonania na temat MZD. Idziemy dalej, dopóki nie zabraknie nam pomysłów, nie jest już ekonomicznie możliwe zebranie danych na tyle dokładnych, aby wyeliminować więcej terminów $ U_i $ , model działa wystarczająco dobrze dla naszego potrzeb lub z wielu pragmatycznych powodów. Nigdy nie przestajemy, ponieważ wypróbowaliśmy każdy możliwy termin $ U_i $ .
b) coś która pozwala na interpretację przyczynową?
To zagłębianie się w niezwykle filozoficzne terytorium. Nauka opiera się na założeniu, że DGP stanowią podstawę rzeczywistości i dzięki uważnemu przemyśleniu i eksperymentom możemy odkryć tę podstawową rzeczywistość. Używamy statystyk, aby porównać wynik MZD z naszą hipotezą, czym jest DPG i szukamy małego $ e $ , aby dać nam wiarę, że uchwyciliśmy znaczna część MZD. Jednak ponieważ nigdy tak naprawdę nie znamy MZD, staramy się oszacować ryzyko, które podejmujemy.
Załóżmy, że szacowany model to $ y = a + bx + e $ , ale że MZD to $ y = a + bx + cz + e $ to będzie oszacowania odchylone od zysku, jeśli $ x $ i z są skorelowane „. Nie rozumiem, co to ma znaczyć, jeśli równanie regresji opisuje średnią y zależną od x. ” nieokreślone ” model da wyższy (lub niższy) współczynnik uwzględniający korelację, jednak nadal będzie poprawnie opisywać oczekiwanie Y w zależności od x. Wydaje mi się, że interpretują współczynniki regresji jako oczekiwaną zmianę w y jeśli regresor zostanie zmieniony o jedną jednostkę (w określonym przypadku)
Jeśli model nie został poddany zmianom w $ U_i $ , w tym przypadku skrystalizowany jako $ z $ , nie może uwzględniać korelacji. Część relacji między $ x $ i $ y $ zależy od nieznanego trzeciego czynnika, który wpływa na charakter relacji między $ x $ i $ y $ . Jeśli niewidoczne $ z $ ulegnie zmianie, ma to nieprzewidywalny wpływ na relację x-y, ponieważ nie została przechwycona. Jeśli znasz metody PCA, PLS lub podobne, zrozumiesz, jak subtelne i złożone są korelacje. Macierz korelacji to podsumowanie wysokiego poziomu, które ukrywa wiele szczegółów. PCA może rozpakować pojedynczą macierz korelacji na kilka różnych przyczyn skorelowanych zachowań. Każdy komputer osobisty opisuje unikalny zestaw skorelowanych zachowań. Co więcej, każdy komputer nie jest skorelowany z innymi, więc wiedza o jednym zestawie skorelowanych zachowań daje zero informacji o pozostałych. Musisz wyraźnie przyjrzeć się każdej możliwej korelacji, aby ją uwzględnić.
Jednak nadal poprawnie opisz oczekiwanie Y zależne od x
Będzie to prawda, dopóki obowiązuje podstawowa struktura korelacji, ale jeśli nie zbadałeś interakcji $ x $ i $ z $ , wtedy nie wiesz, kiedy się zepsuje lub zmieni. Ta kwestia leży u podstaw potrzeby weryfikacji modeli w każdej nowej populacji lub sytuacji. Rzeczywistym przykładem z mogą być niezmierzone czynniki dietetyczne wpływające na analityczny cel (x) skorelowane ze śmiertelnością z powodu choroby (y). Z biegiem lat zmieniają się nawyki żywieniowe populacji, co może zmienić metabolizm analitu lub podstawową fizjologię, na którą oddziałuje analit, a stamtąd w inny sposób wpływa na śmiertelność.
@ Carl podaje kilka przykładów powszechnie stosowanych scenariuszy za wyjaśnienie DGP, w którym używamy bardzo prostych modeli statystycznych prawdopodobieństwa, aby umożliwić nam przewidywanie zachowań długoterminowych. Jednak wszystkie te modele prawdopodobieństwa mają za sobą mechanizmy fizyczne. Rozważ rzut kośćmi, jakie czynniki mogą to obejmować?Wymienię kilka, które przychodzą mi do głowy:
-
Symetria kości
-
Orientacja początkowa
-
Kierunek rzutu
-
Siła rzutu
-
Lokalna topografia (kształt powierzchni, na którą w kierunku)
-
Obrót
-
Współczynnik tarcia między kostką a powierzchnią
-
Zaokrąglenie krawędzi i narożników
-
Ruch powietrza
-
Temperatura
Teoria stojąca za DGP jest taka, że gdybyś mógł zidentyfikować i dokładnie zmierzyć wystarczającą liczbę czynników, to mógłbyś przewidzieć wynik pojedynczego rzutu z pożądaną precyzją. Powiedzmy, że tworzymy model do rzucania kośćmi w Las Vegas kasyno i wygrywamy tak dużo, że trafiamy na czarną listę w każdym większym kasynie (zapomnieliśmy wystarczająco przegrać). Teraz weź ten model i zastosuj go do źle utrzymanej, przeciągłej jaskini hazardu, czy nadal będzie on działał wystarczająco dokładnie, aby wygrać więcej niż przegrać? Nie będziemy wiedzieć, dopóki go nie przetestujemy.
Odpowiedź
Proces generowania danych to ogólny termin określający każdy proces, który generuje dane. Na przykład rzucanie kostkami, symulacja Monte Carlo normalnych danych z $ \ mathcal {N} (0,1) $ , dmuchanie konfetti w powietrze, ile elementów ląduje w wiadrze jako funkcja czasu, rzucając rzutkami w znak $ x $ na ścianie, aby pokazać chmurę danych 2D, rozdając karty pokerowe z oznaczonej talii kart lub czegokolwiek potrzebnego do wygenerowania danych.
Dodaj komentarz