データによって高い値、低い値はまちまちだから
国語のテストは100点満点、数学のテストは200点満点の時、「100点」は 国語:満点!max値 数学:50%の値 と高い値かどうかが変わる
データによって「100」という値を「高い値」とするのか「中間くらいの値」とするのか 「低い値」とするのかをならすのがデータの標準化
平均値からどれくらい離れているかに注目
標準化の方法(数式)をきちんと理解していませんが。。。 それぞれのデータの平均値を求めて「実績値は平均値からどれくらい離れているか」を見る
データの標準化をすれば尺度の違うデータを説明変数として重回帰分析できる! 画像は平均値を0として-1~1の間に変換しているのでデータの正規化という
Scikit-learnでデータのスケール変換(前処理)する
scikit-learnのStandardScaler()
を使ったら2とか4とか1に収まってないじゃん!ってなった
StandardScaler()
はデータ標準化の関数だから、1より大きい値もあるのか!!