데이터 생성 프로세스 (DGP)는 실제로 무엇을 의미합니까?

On 11월 18, 2020 by admin

DGP의 의미를 정확히 이해하는 데 어려움이 있습니다. “DGP는 오류 용어가 모든 OLS 가정을 충족하는 $ y = a + bx + e $ 로 제공됩니다. 이것이 의미합니까

a) $ x $ 가치에 대한 지식이 주어지면 $ y $ 는 오른쪽의 확률 분포를 사용합니다.

b) 인과 적 해석을 허용하는 것이 있습니까?

편집 : 계량 경제 이론 및 17 페이지의 Davidson과 Mckinnon에 의한 방법 “모델 (1.01)은 x에 대한 y의 평균에 대한 모델로 해석 될 수 있습니다.”라고 기록되어 있습니다. 나에게 이것은 “진정한”회귀 모델이 내가 a)에서 말하는 것을 의미한다고 말하는 것 같습니다.

114 페이지에 다음과 같이 쓰여 있습니다 (약간 요약). “우리가 추정하는 모델이 $ y = a + bx + e $ 이지만 DGP는 $ y = a + bx + cz + e $ 입니다. 이렇게하면 $ x $ 와 z가 상관 관계가있는 경우 편향된 추정치를 얻을 수 있습니다. ” 회귀 방정식이 x에 대한 y 조건의 평균을 설명한다면 이것이 의미하는 바를 이해하지 못합니다. “미지정”모델은 상관 관계를 고려하기 위해 더 높은 (또는 더 낮은) 계수를 산출하지만 여전히 올바르게 x에 대한 조건부 $ y $ 의 기대치를 설명하십시오. 여기에서 회귀 계수가 다음과 같이 변경 될 경우 예상되는 y 변화를 의미하는 것으로 회귀 계수를 해석하는 것 같습니다. 하나의 단위 (특정 인스턴스에서)

" DGP "는 종종 철학적 의미없이 사용됩니다. 수학적 모델을 나타냅니다. 특히 그 자체로는 신념에 대한 심리적 주장을하지 않습니다. 작성한 모델에는 용어가없고 암시적인 가정도 없습니다. 그 참조 시간 또는 인과 관계.
믿음으로 나는 확률에 대한 베이지안 해석을 믿음의 정도로 언급하고 있습니다. a) 해석이 인과 적이 지 않다는 점을 분명히하기 위해 질문을 수정했습니다.
요점은 가능한 많은 해석 중 하나라는 것입니다. '는 DGP 자체가 아닙니다. DGP가 의미하는 바를 정확하게 이해하려면 수학적 정의를 참조하거나 철학적 프레임 워크에 관계없이 실제 응용 프로그램을 살펴보세요.
동의합니다 ' 내가 따르는 것 같지 않습니다. DGP는 현실에 대한 수학적 설명입니다 (계량 계에서는 종종 현실을 " 진정한 DGP "로 추상화하는 것처럼 보입니다). 제가 말하고자하는 것은 DGP를 언급하는 것이 실제로 어떤 진술이 현실화되고 있는지에 대한 모호함을 허용하는 것 같다는 것입니다.
특정 상황에서 DGP가 나오는 것 같습니다. 그렇다면 더 큰 인용문과 인용문을 제공 하시겠습니까?

답변

DGP는 데이터가 그대로 발생합니다. 그것들은 우리가 모르고 알 수없는 플라톤적인 이상입니다. 시뮬레이션에서만 수학적 DGP를 정의 할 수 있으며 실제 세계에서는 숨겨져 있습니다.

수학적 모델링의 목적은 데이터의 추상화입니다. 이것은 우리가 알고 관찰 한 것을 취하고 새로운 상황에서 유용한 예측을 할 수 있도록 기본 현실에 대한보다 일반화 된 설명을 찾으려는 것을 의미합니다. 이 사이트에는 모든 모델이 틀렸지 만 일부는 유용하다는 말이 널리 사용되고 있습니다. 이것이 바로 그 이유입니다.

“DGP는 $로 주어집니다. y = a + bx + e $ 여기서 오류 항이 모든 OLS 가정을 충족합니다. ” $ e $ 용어는 데이터 생성에 대한 다양한 하위 기여자를 캡슐화하기 때문에 경찰입니다. 데이터를 생성 한 것이 무엇이든 정확한 형태를 가지며 손으로 물결 치는 오류 용어가 아닙니다. 우리가 오류라고 부르는 것은 설명 할 수없는 변형 일뿐입니다.

a) x가 취하는 값에 대한 지식이 주어지면 y 값에 대한 믿음을 설명합니다. 오른쪽의 확률 분포를 사용합니다.

이것이 우리가 x를 기반으로 y에 대한 믿음을 평가하려는 목표입니다. 그러나 예는 데이터 생성 프로세스에 대해 오해의 소지가 있습니다. 인용 된 것은 DGP가 아닌 회귀 모델입니다. 저는 $ y = a + bx + cU_1 + …와 같은 것을 작성하는 것을 선호합니다. zU_i $ 여기서 $ e $ 용어가 알려지지 않은 일련의 기본 요소 $ U $ 로 분할됩니다. span> 1에서 최대 $ i $ 까지.그런 다음 $ y = a + bx + e $ 를 가정하고 예측하여 $ y $ 에 대해 알아 보려고합니다. 그 모델을 데이터에 적용합니다. x는 데이터를 맞추기에 충분하지 않다는 것을 알게되었고 더 자세히 살펴보면 이전에 식별되지 않은 요인이 관련되어 있음을 알게되므로 $ U_1 $ 를 $ z $ 및 새 데이터를 수집하여 새 가설을 테스트합니다. 더 적합하다면 DGP에 대한 우리의 신념을 업데이트합니다. 아이디어가 부족해질 때까지 계속 진행합니다. 더 이상 $ U_i $ 용어를 제거 할만큼 정확한 데이터를 경제적으로 수집 할 수 없습니다. 모델은 필요하거나 실용적인 이유가 있습니다. 가능한 모든 $ U_i $ 용어를 시도했기 때문에 절대 멈추지 않습니다.

b) 무언가 인과 적 해석이 가능합니까?

이것은 극도로 철학적 인 영역으로 더 깊이 들어가고 있습니다. 과학은 DGP가 현실을 뒷받침한다는 전제를 기반으로하며 신중한 생각과 실험을 통해 그 근본적인 현실을 발견 할 수 있습니다. 우리는 통계를 사용하여 DGP의 결과를 DPG가 무엇인지에 대한 가설과 비교하고 작은 $ e $ 을 (를) 찾습니다. DGP의 상당 부분. 그러나 우리는 DGP를 진정으로 알지 못하기 때문에 우리가 감수하고있는 위험을 정량화하려고합니다.

예상 모델이 $ y = a + bx + e $ 하지만 DGP가 $ y = a + bx + cz + e $ 이면 $ x $ 및 z가 상관 관계가있는 경우 편향된 추정치를 산출합니다 ". 회귀 방정식이 x에 대한 y 조건의 평균을 설명한다면 이것이 의미하는 바를 이해하지 못합니다. " 미지정 " 모델은 상관 관계를 고려하기 위해 더 높은 (또는 더 낮은) 계수를 산출하지만 x에 대한 Y 조건의 기대치를 올바르게 설명합니다. 여기에서는 회귀 계수를 y의 예상 변화를 의미하는 것으로 해석하고있는 것 같습니다. 회귀자가 한 단위 씩 변경된 경우 (특정 인스턴스에서)

모델이 $ U_i $ ,이 경우 $ z $ 로 결정되어 상관 관계를 설명 할 수 없습니다. $ x $ 및 $ y $ 는 $ x $ 및 $ y $ . 보이지 않는 $ z $ 가 변경되면 캡처되지 않았기 때문에 x-y 관계에 예측할 수없는 영향을 미칩니다. PCA 또는 PLS 또는 유사한 방법에 익숙하다면 상관 관계가 얼마나 미묘하고 복잡한 지 이해할 것입니다. 상관 행렬은 많은 세부 사항을 숨기는 높은 수준의 요약입니다. PCA는 단일 상관 행렬을 상관 된 행동의 여러 가지 근본적인 원인으로 압축 해제 할 수 있습니다. 각 PC는 고유 한 상관 동작 집합을 설명합니다. 또한 각 PC는 다른 PC와 관련이 없으므로 한 세트의 상관 된 동작에 대해 알면 다른 PC에 대한 정보가 없습니다. 이를 설명하려면 가능한 각 상관 관계를 명시 적으로 살펴 봐야합니다.

그러나 x에 대한 Y 조건의 기대치는 여전히 올바르게 설명

기본 상관 관계 구조가 적용되는 동안은 사실이지만 $ x $ 및 $ z $ 이면 언제 고장 또는 변경되는지 알 수 없습니다. 이 문제는 새로운 모집단이나 상황에서 모델 검증의 필요성의 기초가됩니다. z의 실제 예는 질병 사망률 (y)과 관련된 분석 대상 (x)에 영향을 미치는 측정되지 않은식이 요소 일 수 있습니다. 수년에 걸쳐 인구의 식습관이 변하여 분석 물질의 신진 대사 또는 분석 물질이 작용하는 기본 생리학을 변화시킬 수 있으며 거기에서 다른 방식으로 사망률에 영향을 미칩니다.

@Carl은 일반적으로 사용되는 시나리오의 몇 가지 예를 제공합니다. 장기적인 행동을 예측할 수 있도록 매우 간단한 확률 통계 모델을 사용하는 DGP를 설명합니다. 그러나 이러한 모든 확률 모델에는이를 뒷받침하는 물리 메커니즘이 있습니다. 주사위를 굴리는 것을 고려해보십시오. 어떤 요인에 포함될 수 있습니까?제가 생각할 수있는 몇 가지를 나열하겠습니다.

주사위의 대칭
시작 방향
투구 방향
투구 력
국부 지형 (투구 된 표면의 모양 방향)
스핀
주사위와 표면 사이의 마찰 계수
가장자리 및 모서리의 둥글기
공기 이동
온도

DGP의 이론은 충분한 요소를 식별하고 정확하게 측정 할 수 있다면 원하는 정밀도 내에서 한 번 던질 때의 결과를 예측할 수 있다는 것입니다. 따라서 라스 베이거스에서 주사위를 굴리는 모델을 구축했다고 가정 해 보겠습니다. 카지노에서 이기고 모든 주요 카지노에서 블랙리스트에 올랐습니다 (충분히지는 것을 잊었습니다). 이제 그 모델을 잘 관리되지 않은 드래프트 도박장에 적용하십시오. 우리가 잃는 것보다 더 많이 이길 수있을만큼 정확하게 적용 될까요? 테스트 할 때까지는 알 수 없습니다.

답변

데이터 생성 프로세스는 다음을 생성하는 모든 프로세스의 일반적인 용어입니다. 예를 들어, 주사위를 굴리기, $ \ mathcal {N} (0,1) $ 을 사용하여 일반 데이터를 몬테카를로 시뮬레이션하고, 시간 함수로 버킷 안에 얼마나 많은 조각이 들어 갔는지, 벽에 $ x $ -마크에 다트를 던져 2D 데이터 클라우드를 표시하고 포커 핸드를 처리합니다. 표시된 카드 데크 또는 데이터 생성에 필요한 모든 것에서.

데이터 생성 프로세스 (DGP)는 실제로 무엇을 의미합니까?

댓글

답변

답변

Written by admin

답글 남기기 답글 취소하기

최신 글

보관함