Python 面向特征工程的数据分组与分块_Python_Database_Pandas_Dataframe_Binning

Python 面向特征工程的数据分组与分块

python database pandas dataframe

Python 面向特征工程的数据分组与分块,python,database,pandas,dataframe,binning,Python,Database,Pandas,Dataframe,Binning,我努力将我的数据划分为用于特征工程的容器。数据是我想按分类数据（邻里）分组的销售价格我做错了什么-我得到了所有行的NaN值？谢谢 pricy_location=train['SalePrice'].groupby（train['neighbource']）平均值（）标签=['rank1'、'rank2'、'rank3'、'rank4'、'rank5'] 列车['Pricy_Loc']=pd.qcut（Pricy_位置，5，标签=标签，精度=2）火车头我认为问题的出现是因为您正在创建一个按

我努力将我的数据划分为用于特征工程的容器。数据是我想按分类数据（邻里）分组的销售价格

我做错了什么-我得到了所有行的

NaN

值？谢谢

pricy_location=train['SalePrice'].groupby（train['neighbource']）平均值（）
标签=['rank1'、'rank2'、'rank3'、'rank4'、'rank5']
列车['Pricy_Loc']=pd.qcut（Pricy_位置，5，标签=标签，精度=2）
火车头

我认为问题的出现是因为您正在创建一个按邻域分组的数据帧（只有25行长），然后尝试使用为该数据帧创建的类别，并将其应用于一个长得多的1460行的数据帧。您只需在列车数据帧的新列中获取汇总数据，然后对结果进行分类：

train['Pricy_loc'] = train.groupby('Neighborhood')['SalePrice'].transform('mean')
label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
train['Price_loc_cat'] = pd.qcut(train['Pricy_loc'], 5, labels=label, precision=2)

你能和我们分享你的数据样本吗？你能分享你的输入样本吗？数据和更多信息在这里，很抱歉没有添加：）是的，解决了问题。非常感谢。在代码中应该有groupby（train['neighbority']），很高兴我能帮上忙。如果您不介意，您可以通过单击答案旁边的复选标记来接受我的答案。：）