buto > /dev/null

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

Python 相関分析を再チャレンジ!

Python 好きなピンクを相関分析してみるでピンク色をRGB値で表して好みと相関分析したのですが わーい!って結果が出なかったので会社の人からおすすめされたHSVで相関分析を再実行!

インプットデータはこちら

f:id:butorisa:20201020142049p:plain

色相(Hue)

色相(Hue)とLIKEの相関係数0.339171

f:id:butorisa:20201020142117p:plainf:id:butorisa:20201020142130p:plain

彩度(Saturation)

彩度(Saturation)とLIKEの相関係数0.561567

f:id:butorisa:20201020142155p:plainf:id:butorisa:20201020142215p:plain

明度(Value

明度(Value)とLIKEの相関係数0.453418

f:id:butorisa:20201020142318p:plainf:id:butorisa:20201020142331p:plain

なかなか思うようにいかない

高い相関は出なかった。。。データ数が少ないのでデータの特徴とか見出しづらいのかな 同じデータでニューラルネットワークも試しているが、エラーが出るようになった! (インプットデータの標準化?前処理でデータの次元が分からなくなりました) 次はビッグデータを取ってきてきちんと前処理して分析するのが課題

import pandas as pd
from sklearn import linear_model
import matplotlib.pyplot as plt  
%matplotlib inline
import seaborn as sons

csv_data = pd.read_csv('pink_hsv.csv')
data = pd.DataFrame(csv_data)
pd.DataFrame(csv_data)

# 色相とLIKEの関連
x = data[['H']]
y = data[['LIKE']] 

plt.scatter(x, y)  
plt.xlabel('Hue')  
plt.ylabel('LIKE')  
plt.show
# 相関分析
df = data[[x.columns[0], y.columns[0]]]
corr_mat = df.corr(method='pearson')
print(corr_mat)

sons.heatmap(corr_mat,  
            vmin=-1.0,  
            vmax=1.0,  
            center=0,  
            annot=True, 
            fmt='.1f',  
            xticklabels=corr_mat.columns.values,  
            yticklabels=corr_mat.columns.values  
           )  
plt.show()

# 彩度とLIKEの関連
x = data[['S']]
y = data[['LIKE']]

plt.scatter(x, y)  
plt.xlabel('Saturation')  
plt.ylabel('LIKE')  
plt.show  
# 相関分析
df = data[[x.columns[0], y.columns[0]]]
corr_mat = df.corr(method='pearson')
print(corr_mat)

sons.heatmap(corr_mat,  
            vmin=-1.0,  
            vmax=1.0,  
            center=0,  
            annot=True, 
            fmt='.1f',  
            xticklabels=corr_mat.columns.values,  
            yticklabels=corr_mat.columns.values  
           )  
plt.show()

# 明度とLIKEの関連
x = data[['V']]
y = data[['LIKE']]

plt.scatter(x, y)  
plt.xlabel('Value')  
plt.ylabel('LIKE')  
plt.show  
# 相関分析
df = data[[x.columns[0], y.columns[0]]]
corr_mat = df.corr(method='pearson')
print(corr_mat)

sons.heatmap(corr_mat,  
            vmin=-1.0,  
            vmax=1.0,  
            center=0,  
            annot=True,
            fmt='.1f',  
            xticklabels=corr_mat.columns.values,  
            yticklabels=corr_mat.columns.values  
           )  
plt.show()