読書『データ分析のための数理モデル入門』 - 共分散
教養なさすぎて出てくる単語がいちいちわからないので、調べたメモ。共分散について。書籍内で説明されている内容のまとめではなく、前提知識すぎて説明されていないことを調べたものです。
共分散
2つの変数がどの程度いっしょに変動するかを示す指標。正の値であれば、一方が増えた時に他方も増える傾向がある。確率変数 $X$ と $Y$ の共分散 $Cov(X, Y)$ は次のようになる。
$$ Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] $$
$E$ は期待値演算で、確率変数の平均を取る。 $[ ]$ はその演算がカッコ内の式全体に適用することを示すために使われる数学の一般的な表記法。とChatGPTが言っていた。
$\mu_X$ は $X$ の平均なんだから、$X$ が確率変数であれば $E[X]$ と同じじゃない? 上の式は $E[(X - E[X])(Y - E[Y])]$ とも書けるわけ?と聞いたら、そうだとChatGPTが言っていた。
それはさておき、この定義、具体的なデータセットがあって、 $X$ と $Y$ に順にデータを当てはめて計算した場合に、これが「どの程度いっしょに変動するかを示す指標」になるのは、わかる。でも、どちらも確率変数ですよね? じゃあ、具体的なデータセットはなくて、 $X$ と $Y$ の確率密度関数が与えられたときに、共分散は算出できる? と聞いたら、できると言う。ChatGPTが。マジで?
じゃあ、 $X$ が日本人の身長、 $Y$ がとあるテストの点数だとして、データセットに基づくと共分散はゼロ、つまり関連はなしという結果が出るものを、データセットを隠して共分散を計算したらちゃんとゼロっていう結論を導けるの? というと、それは無理だと。
確率密度関数(PDF)のみから共分散を算出することは、変数間の関係(相関)が完全に理解されていない限り困難です。具体的なデータセットがない場合、結合確率密度関数が必要です。
なるほどね。「結合確率密度関数」という新しいワードが出てきましたが、複数の確率変数がある値の組み合わせを取る確率密度を示す関数でしょう。それがあれば、たしかに共分散の算出はできそうです。
