データによって高い値、低い値はまちまちだから

国語のテストは100点満点、数学のテストは200点満点の時、「100点」は国語：満点！max値　数学：50％の値　と高い値かどうかが変わる

データによって「100」という値を「高い値」とするのか「中間くらいの値」とするのか「低い値」とするのかをならすのがデータの標準化

平均値からどれくらい離れているかに注目

標準化の方法（数式）をきちんと理解していませんが。。。それぞれのデータの平均値を求めて「実績値は平均値からどれくらい離れているか」を見る

データの標準化をすれば尺度の違うデータを説明変数として重回帰分析できる！画像は平均値を0として-1～1の間に変換しているのでデータの正規化という

f:id:butorisa:20201020142748j:plain

Scikit-learnでデータのスケール変換（前処理）する scikit-learnのStandardScaler()を使ったら2とか4とか1に収まってないじゃん！ってなった StandardScaler()はデータ標準化の関数だから、1より大きい値もあるのか！！