buto > /dev/null

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

【朝活】【python】dropna()で欠損値を削除

scikit-learnで分析を実行する時にデータに空白(欠損値)があるとエラーになります 分析実行の前にやっておきたい「欠損値の処理」をやってみました

データ解析ライブラリPandasのDataFrameを使っています

import pandas as pd
# 気温データを読み込む
data = pd.read_csv('./temperature.csv')
print(data)

欠損値は「NaN」で表示されます

f:id:butorisa:20201020133618p:plain

# time,dataいずれかがNaN(欠測値)の行を削除
dropNan = data.dropna()
print(dropNan)

03:00、04:00、07:00のデータが削除されました

f:id:butorisa:20201020133720p:plain

# time,dataの両方がNaNの行を削除
dropNan_all = data.dropna(how='all')
print(dropNan_all)

doropna(how='all')にすると03:00のデータだけ削除されました

f:id:butorisa:20201020133738p:plain