buto > /dev/null

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

どうしてデータ標準化が必要なの?

データによって高い値、低い値はまちまちだから

国語のテストは100点満点、数学のテストは200点満点の時、「100点」は 国語:満点!max値 数学:50%の値 と高い値かどうかが変わる

データによって「100」という値を「高い値」とするのか「中間くらいの値」とするのか 「低い値」とするのかをならすのがデータの標準化

平均値からどれくらい離れているかに注目

標準化の方法(数式)をきちんと理解していませんが。。。 それぞれのデータの平均値を求めて「実績値は平均値からどれくらい離れているか」を見る

データの標準化をすれば尺度の違うデータを説明変数として重回帰分析できる! 画像は平均値を0として-1~1の間に変換しているのでデータの正規化という

f:id:butorisa:20201020142748j:plain

Scikit-learnでデータのスケール変換(前処理)する scikit-learnのStandardScaler()を使ったら2とか4とか1に収まってないじゃん!ってなった StandardScaler()はデータ標準化の関数だから、1より大きい値もあるのか!!