データ生成プロセス(DGP)は実際にはどういう意味ですか?
On 11月 18, 2020 by admin DGPの意味を正確に理解するのに問題があります。 「DGPは
a) $ x $ の値についての知識があれば、値 $ y $ は、右側の確率分布を取ります。
b)因果関係の解釈を可能にするものはありますか?
編集:計量経済学と17ページのDavidsonとMckinnonによる方法では、「モデル(1.01)は、xを条件とするyの平均のモデルとして解釈できる」と書かれています。私には、これは「真の」回帰モデルが私がaで言うことを意味すると言っているようです。
114ページに書かれています(少し要約されています)「私たちが推定するモデルが<スパンクラスであると仮定しましょう= "math-container"> $ y = a + bx + e $ ですが、DGPは $ y = a + bx + cz + e $ $ x $ とzが相関している場合、これによりバイアスのある推定値が得られます。回帰方程式がxを条件とするyの平均を表す場合、これが何を意味するのかわかりません。「指定不足」モデルは、相関を考慮してより高い(またはより低い)係数を生成しますが、それでも正しくなります。 xを条件とする
コメント
- " DGP "は、哲学的な意味を持たずに使用されることがよくあります。これは、数学モデルを指します。特に、それ自体では、信念について心理的な主張をしません。書き留めたモデルには、用語や暗黙の仮定がありません。その参照時間または因果関係。
- 信念によって、私は確率のベイジアン解釈を信念の程度として参照しています。私はtを知っています。 a)の解釈が因果関係にないので、質問を編集して明確にしました。
- 要点は、考えられる多くの解釈の1つです。 it 'はDGP自体ではありません。 DGPの意味を正確に理解したい場合は、その数学的定義を参照するか、実際のアプリケーションを調べてください(哲学的フレームワークに関係なく)。
- 私は'私がフォローしているとは思わない。 DGPは現実の数学的記述です(計量経済学では、現実をいわゆる"真のDGP "に抽象化することがよくあります)。私が言っているのは、DGPを述べることは、現実についてどのような発言が実際に行われているのかについて曖昧さを許容しているようだということです。
- 特定の状況でDGPが登場しているようです。もしそうなら、より大きな引用と引用を提供していただけますか?
回答
DGPは、データが発生するようにします。それらは私たちが知らず、知ることができないプラトンの理想です。シミュレーションでのみ、数学的DGPを定義できます。現実の世界では、それらは私たちから隠されています。
数学的モデリングの目的は、データの抽象化です。これは、私たちが知っていることと観察していることを取り入れて、新しい状況で有用な予測を行うことを可能にする、根底にある現実のより一般化された説明を見つけようとすることを意味します。このサイトで広く使われていることわざには、すべてのモデルが間違っているが、いくつかは有用であるということわざがあります。これがそのことわざの原因です。
“DGPは
a)値xの知識があれば、値yについての彼らの信念を説明できます。右側の確率分布を使用します。
これが、xに基づいてyについて評価または信念を試みる目的です。ただし、例単独では、データ生成プロセスに関して誤解を招く可能性があります。引用されているのは、DGPではなく回帰モデルです。
b)何かそれは因果関係の解釈を可能にしますか?
これは非常に哲学的な領域に深く入り込んでいます。科学は、DGPが現実を支えているという前提に基づいており、慎重な思考と実験を通じて、その根底にある現実を明らかにすることができます。統計を使用して、DGPの結果をDPGとは何かという仮説と比較し、小さな $ e $ を探して、キャプチャしたことを確信します。 DGPの重要な部分。ただし、DGPが本当にわからないため、私たちが取っているリスクを定量化しようとしています。
推定するモデルが
$ y = a + bx + e $ ですが、DGPが $ y = a + bx + cz + e $ である場合 $ x $ とzが相関している場合、バイアスのある推定値が得られます"。回帰方程式がxを条件とするyの平均を記述している場合、これが何を意味するのかわかりません。"指定不足"モデルは、相関を考慮してより高い(またはより低い)係数を生成しますが、それでもxを条件とするYの期待値を正しく記述します。ここでは、回帰係数をyの期待される変化を意味するものとして解釈しているようです。リグレッサが1単位変更された場合(特定のインスタンスで)
モデルが
ただし、xを条件とするYの期待値を正しく記述します
これは、基礎となる相関構造が適用されている間は当てはまりますが、 $ x $ spanの相互作用を調査していない場合は>および
@Carlは一般的に使用されるシナリオの例をいくつか示していますDGPを説明するために、確率の非常に単純な統計モデルを使用して、長期的な動作を予測できるようにします。ただし、これらすべての確率モデルには、それらを支える物理メカニズムがあります。サイコロを振ることを検討してください。どのような要因がそれを含む可能性がありますか?私が考えることができるいくつかをリストします:
-
サイコロの対称性
-
開始方向
-
投げる方向
-
投げる力
-
局所的な地形(投げる表面の形状)に向かって)
-
スピン
-
サイコロと表面の間の摩擦係数
-
エッジとコーナーの丸み
-
空気の動き
-
温度
DGPの背後にある理論は、十分な要素を特定して正確に測定できれば、1回の投球の結果を希望の精度で予測できるというものです。つまり、ラスベガスでサイコロを振るモデルを作成するとします。カジノと私たちは多くの勝利を収め、すべての主要なカジノでブラックリストに登録されます(十分に失うのを忘れていました)。今度はそのモデルを取り、手入れの行き届いていないドラフトなギャンブルの巣窟に適用しますが、それでも私たちが失う以上に勝つために十分正確に適用されますか?テストするまでわかりません。
回答
データ生成プロセスは、生成するプロセスの総称です。たとえば、ローリングダイス、 $ \ mathcal {N}(0,1)$ を使用した通常のデータのモンテカルロシミュレーション、紙吹雪を空中に吹き飛ばして見る時間の関数としてバケット内に着地するピースの数、壁の $ x $ マークにダーツを投げて、2Dデータクラウドを表示し、ポーカーハンドを処理しますマークされたカードのデッキまたはデータを生成するために必要なものから。
コメントを残す