Python pandas.dataframe.description与文本字段_Python_R

Python pandas.dataframe.description与文本字段

python r

Python pandas.dataframe.description与文本字段,python,r,Python,R,在为一些数据挖掘研究学习R和pandas的组合时，我发现两个“应该”等价函数的行为方式存在差异。R的summary（df）的工作原理与我对数据帧的预期完全相同，该数据帧由数字和对象数据组成（返回数字的平均值、中值、分位数等，只返回对象的原始计数），这非常棒不幸的是，pandas的dataframe.descripe（）对字符串字段不起作用，而是显示了一大堆NaNs，而不是R使用的更有意义的统计数据。例如： R pandas color

在为一些数据挖掘研究学习

和

pandas

的组合时，我发现两个“应该”等价函数的行为方式存在差异。R的

summary（df）

的工作原理与我对数据帧的预期完全相同，该数据帧由数字和对象数据组成（返回数字的平均值、中值、分位数等，只返回对象的原始计数），这非常棒

不幸的是，pandas的

dataframe.descripe（）

对字符串字段不起作用，而是显示了一大堆

NaN

s，而不是R使用的更有意义的统计数据。例如：

R                      pandas
color                  color
D: 6775         count  53940
E: 9797         unique     7
F: 9542         top        G
G:11292         freq   11292
H: 8304
I: 5422
J: 2808

（pandas的摘要块包含一组统计数据，这些统计数据只对包含数字的字段有意义，为了简洁起见，我省略了这些数据）

查看

descripe（）

帮助，似乎没有包含此功能的内容。我可以完全忽略文本字段，也可以获得它现在所在的引导版本。我同样在熊猫体内找不到不同的等价函数

有什么帮助吗，还是我不得不忍受

注意：我查看了

rpy2

，它似乎不适合

pandas

（或者至少对于我的安装，无论出于什么原因），我希望避免使用它只是为了快速总结。

您可以使用

df[“color”]获得相同的效果。value\u counts（）

好的，我只需要在使用

descripe（）

之前或之后循环所有我知道是对象的列，以获取复制它的编号信息。谢谢

In [21]: series = pd.Series(list("abcdefghijklmnop"*30))
In [22]: series.value_counts()
Out[22]:
 p    30
 n    30
 o    30
 l    30
 m    30
...