定数との相関
On 2月 9, 2021 by adminデータセットを指定して、2つの変数間の相関を取得しようとしています。たまに、与えられたデータセットで、変数の1つが定数値である場合、その変数の標準偏差がゼロであるため、相関のNA値を取得します。 (Rで)。これらのシナリオで相関の値を明示的に割り当てるか、別の方法で何らかの値を取得して、この点を他の時間と比較して相関を計算できるようにします。どうすればいいですか? (1)その変数にノイズを追加して、相関を再度計算する必要があります。それは意味のあることでしょうか?
コメント
- 変数predictorとpredictor定数にもかかわらず、応答定数は実質的にまったく異なる状況であることに注意してください。'どちらの場合も相関関係が(公正に報告されている)不確定であるという事実に関係なく、それらを同じように扱いたいとは思わない。 (完全を期すために、両方の変数を定数に追加します。
- 相関を計算する他の時間と比較することで、意味を拡張できますか?
回答
相関は
$$ \ rho_ {X、Y} = \ frac {\ sigma(X、Y)} {として定義されていることを思い出してください。 \ sigma_X \ sigma_Y} $$
これは、「変数」の1つが定数の場合、それは変数ではなく、分散がゼロに等しいことを意味します。したがって、任意のものとの相関は次のようになります。 未定義(ゼロで除算しているため)
変数$ X $と定数$ c $の標準分散は、$ X $の標準分散と同じです
$$ \ sigma(X + c)= \ sigma(X)$$
共分散についても同じ
$$ \ sigma(X + c、Y)= \ sigma(X、Y)$$
したがって、定数「変数」にノイズを追加すると、他の変数とのノイズの相関が測定されます(「変数」は$ c $およびノイズは$ X $です。
一方、定数を持つランダム変数の共分散はzerです。 o
$$ \ sigma(Y、c)= 0 $$
定数確率変数は独立しています他の確率変数の。したがって、そのような場合の相関関係を本当に再定義する必要がある場合、最良の選択は$ 0 $です。ただし、以下のコメントの Nick Cox で指摘されているように、これでは問題は解決されないことに注意してください。
定数確率変数の基本的な問題は、独立していることです。他のすべてとそれはあなたの分析について何も変更しません。このため、多くのソフトウェアパッケージは、定数変数を使用するとエラーを返すか、分析から自動的に削除します。これはRが行うことであり、そのような動作は相関の定義と一致しています。
コメント
- ここでのロジックにもかかわらず、"相関関係未定義"は、この質問に直面している人にとってより良い答えのようです。 "わからない'わからない"はゼロ相関と同じではありません。さらに、相関をゼロとして扱うさらなる分析は、下流の分析を台無しにする可能性が高くなります。ファッジドゼロの相関行列に基づくPCA。
- したがって、共分散が0の場合、分子は0です。また、1つの変数が定数の場合、分母は0です。0/ 0は混乱。ただし、ここでは分母は単なる倍率であるため、おそらくcorr = 0で問題ありません。しかし、定数を持つ変数の共分散が0として定義されていることは確かに正しいのですが、それが理にかなっていることも私にはわかりません。'実質的に。したがって、NAが最適だと思います。
- @PeterFlom私はあなたに完全に同意します。
- これは、Rがこの問題について言わなければならないことです: `cor(x < -rep(1、10)、y < -rnorm(10))[1] NA警告メッセージ:Cor(x < -rep(1、10)、y < -rnorm(10)):標準偏差はゼロです`
回答
R(または任意の言語)で物事を行う方法に関する質問はここではトピックから外れていますが、統計的な質問もあります。つまり、
1つの変数が一定の場合、2つの変数間の相関の妥当な値は何ですか?
変数にノイズを追加することをお勧めします。それを行う場合は、単に相関が0であると言うこともできます。
問題は、相関がどうあるべきかが本当にわからないことです。これは何でもかまいません。 -1から1まで。それがRがNAを与える理由です。したがって、「情報がない」と言って他の値と比較しない以外に、本当に合理的なことはありません。
コメントを残す