Python 在为数据框中的类别生成虚拟列之前对其进行筛选_Python_Pandas_Dummy Variable

Python 在为数据框中的类别生成虚拟列之前对其进行筛选

python pandas

Python 在为数据框中的类别生成虚拟列之前对其进行筛选,python,pandas,dummy-variable,Python,Pandas,Dummy Variable,我有一个数据集，在某些列中有分类值。一行可能包含多个分类，用、，。例如： user hashtags 0 u1 a,b 1 u2 a,c 2 u3 c 我想为这些类别创建虚拟列。我对数据集中很少出现的类别也不感兴趣。目前，我正在生成虚拟列，然后删除很少出现的列，就像这个块是原始数据帧一样： dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',') dummies_hashtags

我有一个数据集，在某些列中有分类值。一行可能包含多个分类，用、，。例如：

  user hashtags
0   u1      a,b
1   u2      a,c
2   u3        c

我想为这些类别创建虚拟列。我对数据集中很少出现的类别也不感兴趣。目前，我正在生成虚拟列，然后删除很少出现的列，就像这个块是原始数据帧一样：

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)

# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)

请注意，我还添加了一个列，表示出现率较低的类别数

这种方法有效，但速度非常慢。关于如何改进它，我的想法是首先获取所有唯一的类别及其计数，然后删除计数较低的类别，然后再生成虚拟列

我想问你：这种方法真的能改善什么吗？它将如何实施？np.unique with return_counts=我想到了True。还有，有没有更好的方法来解决这个问题

注意：数据集已经是SPARSTAFRAME了。

使用numpy和布尔切片应该可以加快速度。。让我知道这是否适合你

duh = df.hashtags.str.get_dummies(',')
v = duh.values
m = v.sum(0) > 1  # filter out occurrences of 1.  change for your needs
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m])

df.join(d2)

  user hashtags  a  c
0   u1      a,b  1  0
1   u2      a,c  1  1
2   u3        c  0  1

列名称是什么？你展示的东西看起来不像是数据框，是的！所以我想在生成假人之前对标签进行预处理是没有意义的，因为这样会运行得更快。