Python pandas.dataframe.description与文本字段
在为一些数据挖掘研究学习Python pandas.dataframe.description与文本字段,python,r,Python,R,在为一些数据挖掘研究学习R和pandas的组合时,我发现两个“应该”等价函数的行为方式存在差异。R的summary(df)的工作原理与我对数据帧的预期完全相同,该数据帧由数字和对象数据组成(返回数字的平均值、中值、分位数等,只返回对象的原始计数),这非常棒 不幸的是,pandas的dataframe.descripe()对字符串字段不起作用,而是显示了一大堆NaNs,而不是R使用的更有意义的统计数据。例如: R pandas color
R
和pandas
的组合时,我发现两个“应该”等价函数的行为方式存在差异。R的summary(df)
的工作原理与我对数据帧的预期完全相同,该数据帧由数字和对象数据组成(返回数字的平均值、中值、分位数等,只返回对象的原始计数),这非常棒
不幸的是,pandas的dataframe.descripe()
对字符串字段不起作用,而是显示了一大堆NaN
s,而不是R使用的更有意义的统计数据。例如:
R pandas
color color
D: 6775 count 53940
E: 9797 unique 7
F: 9542 top G
G:11292 freq 11292
H: 8304
I: 5422
J: 2808
(pandas的摘要块包含一组统计数据,这些统计数据只对包含数字的字段有意义,为了简洁起见,我省略了这些数据)
查看descripe()
帮助,似乎没有包含此功能的内容。我可以完全忽略文本字段,也可以获得它现在所在的引导版本。我同样在熊猫体内找不到不同的等价函数
有什么帮助吗,还是我不得不忍受
注意:我查看了
rpy2
,它似乎不适合pandas
(或者至少对于我的安装,无论出于什么原因),我希望避免使用它只是为了快速总结。您可以使用df[“color”]获得相同的效果。value\u counts()
好的,我只需要在使用
descripe()
之前或之后循环所有我知道是对象的列,以获取复制它的编号信息。谢谢
In [21]: series = pd.Series(list("abcdefghijklmnop"*30))
In [22]: series.value_counts()
Out[22]:
p 30
n 30
o 30
l 30
m 30
...