データ生成プロセス（DGP）は実際にはどういう意味ですか？

On 11月 18, 2020 by admin

DGPの意味を正確に理解するのに問題があります。「DGPは $ y = a + bx + e $ として与えられ、誤差項がすべてのOLS仮定を満たしていると述べられているとします。これは意味しますか

a） $ x $ の値についての知識があれば、値 $ y $ は、右側の確率分布を取ります。

b）因果関係の解釈を可能にするものはありますか？

編集：計量経済学と17ページのDavidsonとMckinnonによる方法では、「モデル（1.01）は、xを条件とするyの平均のモデルとして解釈できる」と書かれています。私には、これは「真の」回帰モデルが私がaで言うことを意味すると言っているようです。

114ページに書かれています（少し要約されています）「私たちが推定するモデルが<スパンクラスであると仮定しましょう= "math-container"> $ y = a + bx + e $ ですが、DGPは $ y = a + bx + cz + e $ $ x $ とzが相関している場合、これによりバイアスのある推定値が得られます。回帰方程式がxを条件とするyの平均を表す場合、これが何を意味するのかわかりません。「指定不足」モデルは、相関を考慮してより高い（またはより低い）係数を生成しますが、それでも正しくなります。 xを条件とする $ y $ の期待値を記述します。ここでは、回帰係数が次のように変更された場合のyの期待値の変化を意味するものとして解釈しているようです。 1つのユニット（特定のインスタンス）

" DGP "は、哲学的な意味を持たずに使用されることがよくあります。これは、数学モデルを指します。特に、それ自体では、信念について心理的な主張をしません。書き留めたモデルには、用語や暗黙の仮定がありません。その参照時間または因果関係。
信念によって、私は確率のベイジアン解釈を信念の程度として参照しています。私はtを知っています。 a）の解釈が因果関係にないので、質問を編集して明確にしました。
要点は、考えられる多くの解釈の1つです。 it 'はDGP自体ではありません。 DGPの意味を正確に理解したい場合は、その数学的定義を参照するか、実際のアプリケーションを調べてください（哲学的フレームワークに関係なく）。
私は'私がフォローしているとは思わない。 DGPは現実の数学的記述です（計量経済学では、現実をいわゆる"真のDGP "に抽象化することがよくあります）。私が言っているのは、DGPを述べることは、現実についてどのような発言が実際に行われているのかについて曖昧さを許容しているようだということです。
特定の状況でDGPが登場しているようです。もしそうなら、より大きな引用と引用を提供していただけますか？

回答

DGPは、データが発生するようにします。それらは私たちが知らず、知ることができないプラトンの理想です。シミュレーションでのみ、数学的DGPを定義できます。現実の世界では、それらは私たちから隠されています。

数学的モデリングの目的は、データの抽象化です。これは、私たちが知っていることと観察していることを取り入れて、新しい状況で有用な予測を行うことを可能にする、根底にある現実のより一般化された説明を見つけようとすることを意味します。このサイトで広く使われていることわざには、すべてのモデルが間違っているが、いくつかは有用であるということわざがあります。これがそのことわざの原因です。

“DGPは $として与えられますy = a + bx + e $ ここで、誤差項はすべてのOLSの仮定を満たします。」 $ e $ の用語は、データ生成へのさまざまな低次の貢献者をカプセル化するため、警官です。データを生成したものはすべて正確な形式であり、手の波状の誤差項ではありません。私たちがエラーと呼ぶのは、説明できない単なる変化です

a）値xの知識があれば、値yについての彼らの信念を説明できます。右側の確率分布を使用します。

これが、xに基づいてyについて評価または信念を試みる目的です。ただし、例単独では、データ生成プロセスに関して誤解を招く可能性があります。引用されているのは、DGPではなく回帰モデルです。 $ y = a + bx + cU_1 + ..のようなものを記述したいと思います。 zU_i $ ここで、 $ e $ の用語は、一連の未知の根本的な要因 $ U $ 1から不確定な $ i $ まで。次に、 $ y = a + bx + e $ を仮定して投影することにより、 $ y $ について学習しようとします。そのモデルをデータに追加します。 xはデータを収めるのに十分ではないことがわかり、さらに調べてみると、以前は特定されていなかった要因が関連していることがわかりました。そのため、 $ U_1 $ を<に置き換えることができます。 span class = "math-container"> $ z $ し、新しいデータを収集して新しい仮説をテストします。それがより適切であれば、DGPに関する信念を更新します。アイデアがなくなるまで続けます。 $ U_i $ の用語を削除するのに十分な精度のデータを収集することは経済的に不可能であり、モデルはニーズまたは多くの実用的な理由。考えられるすべての $ U_i $ 用語を試したので止まることはありません。

b）何かそれは因果関係の解釈を可能にしますか？

これは非常に哲学的な領域に深く入り込んでいます。科学は、DGPが現実を支えているという前提に基づいており、慎重な思考と実験を通じて、その根底にある現実を明らかにすることができます。統計を使用して、DGPの結果をDPGとは何かという仮説と比較し、小さな $ e $ を探して、キャプチャしたことを確信します。 DGPの重要な部分。ただし、DGPが本当にわからないため、私たちが取っているリスクを定量化しようとしています。

推定するモデルが $ y = a + bx + e $ ですが、DGPが $ y = a + bx + cz + e $ である場合 $ x $ とzが相関している場合、バイアスのある推定値が得られます"。回帰方程式がxを条件とするyの平均を記述している場合、これが何を意味するのかわかりません。"指定不足"モデルは、相関を考慮してより高い（またはより低い）係数を生成しますが、それでもxを条件とするYの期待値を正しく記述します。ここでは、回帰係数をyの期待される変化を意味するものとして解釈しているようです。リグレッサが1単位変更された場合（特定のインスタンスで）

モデルが $ U_i $ 、この場合は $ z $ として結晶化されているため、相関関係を説明できません。 $ x $ と $ y $ は、 $ x $ および $ y $ 。見えない $ z $ が変更された場合、キャプチャされていないため、x-y関係に予測できない影響があります。 PCAやPLS、または同様の方法に精通している場合は、微妙で複雑な相関関係がどれほどあるかを理解できます。相関行列は、多くの詳細を隠す高レベルの要約です。 PCAは、単一の相関行列を、相関する動作のいくつかの明確な根本原因に展開できます。各PCは、相関する動作の固有のセットを記述します。さらに、各PCは他のPCと無相関であるため、相関する動作の1つのセットについて知っていると、他のPCに関する情報はゼロになります。それを説明するには、考えられる各相関関係を明示的に調べる必要があります。

ただし、xを条件とするYの期待値を正しく記述します

これは、基礎となる相関構造が適用されている間は当てはまりますが、 $ x $ および $ z $ の場合、いつ故障または変更されるかわかりません。この問題は、新しい母集団または状況でのモデルの検証の必要性の根底にあるものです。 zの実際の例は、病気の死亡率（y）に相関する分析ターゲット（x）に影響を与える測定されていない食事要因である可能性があります。何年にもわたって、集団の食習慣が変化し、分析物の代謝または分析物が作用する基礎となる生理学が変化し、そこから異なる方法で死亡率に影響を与える可能性があります。

@Carlは一般的に使用されるシナリオの例をいくつか示していますDGPを説明するために、確率の非常に単純な統計モデルを使用して、長期的な動作を予測できるようにします。ただし、これらすべての確率モデルには、それらを支える物理メカニズムがあります。サイコロを振ることを検討してください。どのような要因がそれを含む可能性がありますか？私が考えることができるいくつかをリストします：

サイコロの対称性
開始方向
投げる方向
投げる力
局所的な地形（投げる表面の形状）に向かって）
スピン
サイコロと表面の間の摩擦係数
エッジとコーナーの丸み
空気の動き
温度

DGPの背後にある理論は、十分な要素を特定して正確に測定できれば、1回の投球の結果を希望の精度で予測できるというものです。つまり、ラスベガスでサイコロを振るモデルを作成するとします。カジノと私たちは多くの勝利を収め、すべての主要なカジノでブラックリストに登録されます（十分に失うのを忘れていました）。今度はそのモデルを取り、手入れの行き届いていないドラフトなギャンブルの巣窟に適用しますが、それでも私たちが失う以上に勝つために十分正確に適用されますか？テストするまでわかりません。

回答

データ生成プロセスは、生成するプロセスの総称です。たとえば、ローリングダイス、 $ \ mathcal {N}（0,1）$ を使用した通常のデータのモンテカルロシミュレーション、紙吹雪を空中に吹き飛ばして見る時間の関数としてバケット内に着地するピースの数、壁の $ x $ マークにダーツを投げて、2Dデータクラウドを表示し、ポーカーハンドを処理しますマークされたカードのデッキまたはデータを生成するために必要なものから。

データ生成プロセス（DGP）は実際にはどういう意味ですか？

コメント

回答

回答

Written by admin

コメントを残すコメントをキャンセル

最近の投稿

アーカイブ

データ生成プロセス（DGP）は実際にはどういう意味ですか？

コメント

回答

回答

Written by admin

コメントを残す コメントをキャンセル

最近の投稿

アーカイブ

コメントを残すコメントをキャンセル