buto > /dev/null

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

高い相関があるのに予測精度が落ちる

多重共線性

多重共線性とは? 〜 概要と対応方法 〜 重回帰分析で相関関係の高いデータ組を説明変数にすると予測精度が悪化してしまうことがある これを多重共線性という(略称マルチコかわいい)

目的変数と説明変数の相関関係は重要

テキストの多重共線性の説明(私の記憶) 「重回帰分析で相関係数の高いデータを説明変数に設定すると予測精度が悪化してしまうことがある」

説明変数のデータから目的変数の値を予測するのが回帰分析 → 目的変数と高い相関のある項目を説明変数にしないと予測できなくない? (多重共線性を勘違い 目的変数と説明変数は相関関係が高ければ予測も正確)

説明変数どうしに高い相関関係があると発生する

多重共線性は 「説明変数の項目どうしに」高い相関関係があると起こってしまう事象

多重共線性が発生する理由は以下の記事にありました 多重共線性の問題が説明変数間の相関が強いときに起こる理由を数式から見てみる やばい…全然分からない…