scikit-learnで分析を実行する時にデータに空白(欠損値)があるとエラーになります 分析実行の前にやっておきたい「欠損値の処理」をやってみました
データ解析ライブラリPandasのDataFrameを使っています
import pandas as pd # 気温データを読み込む data = pd.read_csv('./temperature.csv') print(data)
欠損値は「NaN」で表示されます
# time,dataいずれかがNaN(欠測値)の行を削除 dropNan = data.dropna() print(dropNan)
03:00、04:00、07:00のデータが削除されました
# time,dataの両方がNaNの行を削除 dropNan_all = data.dropna(how='all') print(dropNan_all)
doropna(how='all')にすると03:00のデータだけ削除されました