Python 数据集中分类变量之间的相关性

Python 数据集中分类变量之间的相关性,python,machine-learning,data-cleaning,categorical-data,Python,Machine Learning,Data Cleaning,Categorical Data,我有两个关于预测模型数据集中分类变量之间相关性的问题。 使用Cramers V和TheilU双重检查相关性 我的两个变量从Cramers V得到了1.0,然而,当我使用TheilU方法时,我只得到了0.2,我不知道如何解释这两个变量之间的关系 同样对于那些有经验的人来说,如果我对两个变量的相关性得到了0.73,我应该删除预测模型中的一个变量吗 提前非常感谢你 嗯,你可能想把非数字转换成数字。我不认为我看到了非数字的相关性,但也许有一些东西在那里。不过,我不确定它会如何工作。如果您仔细想想,您

我有两个关于预测模型数据集中分类变量之间相关性的问题。 使用Cramers V和TheilU双重检查相关性

  • 我的两个变量从Cramers V得到了1.0,然而,当我使用TheilU方法时,我只得到了0.2,我不知道如何解释这两个变量之间的关系
  • 同样对于那些有经验的人来说,如果我对两个变量的相关性得到了0.73,我应该删除预测模型中的一个变量吗

提前非常感谢你

嗯,你可能想把非数字转换成数字。我不认为我看到了非数字的相关性,但也许有一些东西在那里。不过,我不确定它会如何工作。如果您仔细想想,您会如何将下面的公式应用于非数字数据

无论如何,这里有一些示例代码供您进行实验

仅供参考:请特别关注“
labelencoder
”和“
dfDummies

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
#%matplotlib inline
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import classification_report, confusion_matrix, precision_recall_curve, auc, roc_curve
from sklearn.tree import DecisionTreeClassifier, export_graphviz
import graphviz

df = pd.read_csv('C:\\Users\\ryans\\OneDrive\\Desktop\\mushrooms.csv')

df.columns

df.head(5)

# The data is categorial so I convert it with LabelEncoder to transfer to ordinal.

labelencoder=LabelEncoder()
for column in df.columns:
    df[column] = labelencoder.fit_transform(df[column])

#df.describe()


#df=df.drop(["veil-type"],axis=1)

#df_div = pd.melt(df, "class", var_name="Characteristics")
#fig, ax = plt.subplots(figsize=(10,5))
#p = sns.violinplot(ax = ax, x="Characteristics", y="value", hue="class", split = True, data=df_div, inner = 'quartile', palette = 'Set1')
#df_no_class = df.drop(["class"],axis = 1)
#p.set_xticklabels(rotation = 90, labels = list(df_no_class.columns));

#plt.figure()
#pd.Series(df['class']).value_counts().sort_index().plot(kind = 'bar')
#plt.ylabel("Count")
#plt.xlabel("class")
#plt.title('Number of poisonous/edible mushrooms (0=edible, 1=poisonous)');


plt.figure(figsize=(14,12))
sns.heatmap(df.corr(),linewidths=.1,cmap="YlGnBu", annot=True)
plt.yticks(rotation=0);

有关更多信息,请参阅下面的链接

示例数据来自下面的链接以及该页面的底部

如果您发现一些事实上基于不将分类数据转换为数字数据的方法,请分享您的发现。我想看看

dfDummies = pd.get_dummies(df)

plt.figure(figsize=(14,12))
sns.heatmap(dfDummies.corr(),linewidths=.1,cmap="YlGnBu", annot=True)
plt.yticks(rotation=0);