데이터 생성 프로세스 (DGP)는 실제로 무엇을 의미합니까?
On 11월 18, 2020 by adminDGP의 의미를 정확히 이해하는 데 어려움이 있습니다. “DGP는 오류 용어가 모든 OLS 가정을 충족하는 $ y = a + bx + e $ 로 제공됩니다. 이것이 의미합니까
a) $ x $ 가치에 대한 지식이 주어지면 $ y $ 는 오른쪽의 확률 분포를 사용합니다.
b) 인과 적 해석을 허용하는 것이 있습니까?
편집 : 계량 경제 이론 및 17 페이지의 Davidson과 Mckinnon에 의한 방법 “모델 (1.01)은 x에 대한 y의 평균에 대한 모델로 해석 될 수 있습니다.”라고 기록되어 있습니다. 나에게 이것은 “진정한”회귀 모델이 내가 a)에서 말하는 것을 의미한다고 말하는 것 같습니다.
114 페이지에 다음과 같이 쓰여 있습니다 (약간 요약). “우리가 추정하는 모델이 $ y = a + bx + e $ 이지만 DGP는 $ y = a + bx + cz + e $ 입니다. 이렇게하면 $ x $ 와 z가 상관 관계가있는 경우 편향된 추정치를 얻을 수 있습니다. ” 회귀 방정식이 x에 대한 y 조건의 평균을 설명한다면 이것이 의미하는 바를 이해하지 못합니다. “미지정”모델은 상관 관계를 고려하기 위해 더 높은 (또는 더 낮은) 계수를 산출하지만 여전히 올바르게 x에 대한 조건부 $ y $ 의 기대치를 설명하십시오. 여기에서 회귀 계수가 다음과 같이 변경 될 경우 예상되는 y 변화를 의미하는 것으로 회귀 계수를 해석하는 것 같습니다. 하나의 단위 (특정 인스턴스에서)
댓글
- " DGP "는 종종 철학적 의미없이 사용됩니다. 수학적 모델을 나타냅니다. 특히 그 자체로는 신념에 대한 심리적 주장을하지 않습니다. 작성한 모델에는 용어가없고 암시적인 가정도 없습니다. 그 참조 시간 또는 인과 관계.
- 믿음으로 나는 확률에 대한 베이지안 해석을 믿음의 정도로 언급하고 있습니다. a) 해석이 인과 적이 지 않다는 점을 분명히하기 위해 질문을 수정했습니다.
- 요점은 가능한 많은 해석 중 하나라는 것입니다. '는 DGP 자체가 아닙니다. DGP가 의미하는 바를 정확하게 이해하려면 수학적 정의를 참조하거나 철학적 프레임 워크에 관계없이 실제 응용 프로그램을 살펴보세요.
- 동의합니다 ' 내가 따르는 것 같지 않습니다. DGP는 현실에 대한 수학적 설명입니다 (계량 계에서는 종종 현실을 " 진정한 DGP "로 추상화하는 것처럼 보입니다). 제가 말하고자하는 것은 DGP를 언급하는 것이 실제로 어떤 진술이 현실화되고 있는지에 대한 모호함을 허용하는 것 같다는 것입니다.
- 특정 상황에서 DGP가 나오는 것 같습니다. 그렇다면 더 큰 인용문과 인용문을 제공 하시겠습니까?
답변
DGP는 데이터가 그대로 발생합니다. 그것들은 우리가 모르고 알 수없는 플라톤적인 이상입니다. 시뮬레이션에서만 수학적 DGP를 정의 할 수 있으며 실제 세계에서는 숨겨져 있습니다.
수학적 모델링의 목적은 데이터의 추상화입니다. 이것은 우리가 알고 관찰 한 것을 취하고 새로운 상황에서 유용한 예측을 할 수 있도록 기본 현실에 대한보다 일반화 된 설명을 찾으려는 것을 의미합니다. 이 사이트에는 모든 모델이 틀렸지 만 일부는 유용하다는 말이 널리 사용되고 있습니다. 이것이 바로 그 이유입니다.
“DGP는 $로 주어집니다. y = a + bx + e $ 여기서 오류 항이 모든 OLS 가정을 충족합니다. ” $ e $ 용어는 데이터 생성에 대한 다양한 하위 기여자를 캡슐화하기 때문에 경찰입니다. 데이터를 생성 한 것이 무엇이든 정확한 형태를 가지며 손으로 물결 치는 오류 용어가 아닙니다. 우리가 오류라고 부르는 것은 설명 할 수없는 변형 일뿐입니다.
a) x가 취하는 값에 대한 지식이 주어지면 y 값에 대한 믿음을 설명합니다. 오른쪽의 확률 분포를 사용합니다.
이것이 우리가 x를 기반으로 y에 대한 믿음을 평가하려는 목표입니다. 그러나 예는 데이터 생성 프로세스에 대해 오해의 소지가 있습니다. 인용 된 것은 DGP가 아닌 회귀 모델입니다. 저는 $ y = a + bx + cU_1 + …와 같은 것을 작성하는 것을 선호합니다. zU_i $ 여기서 $ e $ 용어가 알려지지 않은 일련의 기본 요소 $ U $ 로 분할됩니다. span> 1에서 최대 $ i $ 까지.그런 다음 $ y = a + bx + e $ 를 가정하고 예측하여 $ y $ 에 대해 알아 보려고합니다. 그 모델을 데이터에 적용합니다. x는 데이터를 맞추기에 충분하지 않다는 것을 알게되었고 더 자세히 살펴보면 이전에 식별되지 않은 요인이 관련되어 있음을 알게되므로 $ U_1 $ 를 $ z $ 및 새 데이터를 수집하여 새 가설을 테스트합니다. 더 적합하다면 DGP에 대한 우리의 신념을 업데이트합니다. 아이디어가 부족해질 때까지 계속 진행합니다. 더 이상 $ U_i $ 용어를 제거 할만큼 정확한 데이터를 경제적으로 수집 할 수 없습니다. 모델은 필요하거나 실용적인 이유가 있습니다. 가능한 모든 $ U_i $ 용어를 시도했기 때문에 절대 멈추지 않습니다.
b) 무언가 인과 적 해석이 가능합니까?
이것은 극도로 철학적 인 영역으로 더 깊이 들어가고 있습니다. 과학은 DGP가 현실을 뒷받침한다는 전제를 기반으로하며 신중한 생각과 실험을 통해 그 근본적인 현실을 발견 할 수 있습니다. 우리는 통계를 사용하여 DGP의 결과를 DPG가 무엇인지에 대한 가설과 비교하고 작은 $ e $ 을 (를) 찾습니다. DGP의 상당 부분. 그러나 우리는 DGP를 진정으로 알지 못하기 때문에 우리가 감수하고있는 위험을 정량화하려고합니다.
예상 모델이 $ y = a + bx + e $ 하지만 DGP가 $ y = a + bx + cz + e $ 이면 $ x $ 및 z가 상관 관계가있는 경우 편향된 추정치를 산출합니다 ". 회귀 방정식이 x에 대한 y 조건의 평균을 설명한다면 이것이 의미하는 바를 이해하지 못합니다. " 미지정 " 모델은 상관 관계를 고려하기 위해 더 높은 (또는 더 낮은) 계수를 산출하지만 x에 대한 Y 조건의 기대치를 올바르게 설명합니다. 여기에서는 회귀 계수를 y의 예상 변화를 의미하는 것으로 해석하고있는 것 같습니다. 회귀자가 한 단위 씩 변경된 경우 (특정 인스턴스에서)
모델이 $ U_i $ ,이 경우 $ z $ 로 결정되어 상관 관계를 설명 할 수 없습니다. $ x $ 및 $ y $ 는 $ x $ 및 $ y $ . 보이지 않는 $ z $ 가 변경되면 캡처되지 않았기 때문에 x-y 관계에 예측할 수없는 영향을 미칩니다. PCA 또는 PLS 또는 유사한 방법에 익숙하다면 상관 관계가 얼마나 미묘하고 복잡한 지 이해할 것입니다. 상관 행렬은 많은 세부 사항을 숨기는 높은 수준의 요약입니다. PCA는 단일 상관 행렬을 상관 된 행동의 여러 가지 근본적인 원인으로 압축 해제 할 수 있습니다. 각 PC는 고유 한 상관 동작 집합을 설명합니다. 또한 각 PC는 다른 PC와 관련이 없으므로 한 세트의 상관 된 동작에 대해 알면 다른 PC에 대한 정보가 없습니다. 이를 설명하려면 가능한 각 상관 관계를 명시 적으로 살펴 봐야합니다.
그러나 x에 대한 Y 조건의 기대치는 여전히 올바르게 설명
기본 상관 관계 구조가 적용되는 동안은 사실이지만 $ x $ span의 상호 작용을 조사하지 않은 경우 > 및 $ z $ 이면 언제 고장 또는 변경되는지 알 수 없습니다. 이 문제는 새로운 모집단이나 상황에서 모델 검증의 필요성의 기초가됩니다. z의 실제 예는 질병 사망률 (y)과 관련된 분석 대상 (x)에 영향을 미치는 측정되지 않은식이 요소 일 수 있습니다. 수년에 걸쳐 인구의 식습관이 변하여 분석 물질의 신진 대사 또는 분석 물질이 작용하는 기본 생리학을 변화시킬 수 있으며 거기에서 다른 방식으로 사망률에 영향을 미칩니다.
@Carl은 일반적으로 사용되는 시나리오의 몇 가지 예를 제공합니다. 장기적인 행동을 예측할 수 있도록 매우 간단한 확률 통계 모델을 사용하는 DGP를 설명합니다. 그러나 이러한 모든 확률 모델에는이를 뒷받침하는 물리 메커니즘이 있습니다. 주사위를 굴리는 것을 고려해보십시오. 어떤 요인에 포함될 수 있습니까?제가 생각할 수있는 몇 가지를 나열하겠습니다.
-
주사위의 대칭
-
시작 방향
-
투구 방향
-
투구 력
-
국부 지형 (투구 된 표면의 모양 방향)
-
스핀
-
주사위와 표면 사이의 마찰 계수
-
가장자리 및 모서리의 둥글기
-
공기 이동
-
온도
DGP의 이론은 충분한 요소를 식별하고 정확하게 측정 할 수 있다면 원하는 정밀도 내에서 한 번 던질 때의 결과를 예측할 수 있다는 것입니다. 따라서 라스 베이거스에서 주사위를 굴리는 모델을 구축했다고 가정 해 보겠습니다. 카지노에서 이기고 모든 주요 카지노에서 블랙리스트에 올랐습니다 (충분히지는 것을 잊었습니다). 이제 그 모델을 잘 관리되지 않은 드래프트 도박장에 적용하십시오. 우리가 잃는 것보다 더 많이 이길 수있을만큼 정확하게 적용 될까요? 테스트 할 때까지는 알 수 없습니다.
답변
데이터 생성 프로세스는 다음을 생성하는 모든 프로세스의 일반적인 용어입니다. 예를 들어, 주사위를 굴리기, $ \ mathcal {N} (0,1) $ 을 사용하여 일반 데이터를 몬테카를로 시뮬레이션하고, 시간 함수로 버킷 안에 얼마나 많은 조각이 들어 갔는지, 벽에 $ x $ -마크에 다트를 던져 2D 데이터 클라우드를 표시하고 포커 핸드를 처리합니다. 표시된 카드 데크 또는 데이터 생성에 필요한 모든 것에서.
답글 남기기