Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/292.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pandas.dataframe.description与文本字段_Python_R - Fatal编程技术网

Python pandas.dataframe.description与文本字段

Python pandas.dataframe.description与文本字段,python,r,Python,R,在为一些数据挖掘研究学习R和pandas的组合时,我发现两个“应该”等价函数的行为方式存在差异。R的summary(df)的工作原理与我对数据帧的预期完全相同,该数据帧由数字和对象数据组成(返回数字的平均值、中值、分位数等,只返回对象的原始计数),这非常棒 不幸的是,pandas的dataframe.descripe()对字符串字段不起作用,而是显示了一大堆NaNs,而不是R使用的更有意义的统计数据。例如: R pandas color

在为一些数据挖掘研究学习
R
pandas
的组合时,我发现两个“应该”等价函数的行为方式存在差异。R的
summary(df)
的工作原理与我对数据帧的预期完全相同,该数据帧由数字和对象数据组成(返回数字的平均值、中值、分位数等,只返回对象的原始计数),这非常棒

不幸的是,pandas的
dataframe.descripe()
对字符串字段不起作用,而是显示了一大堆
NaN
s,而不是R使用的更有意义的统计数据。例如:

R                      pandas
color                  color
D: 6775         count  53940
E: 9797         unique     7
F: 9542         top        G
G:11292         freq   11292
H: 8304
I: 5422
J: 2808
(pandas的摘要块包含一组统计数据,这些统计数据只对包含数字的字段有意义,为了简洁起见,我省略了这些数据)

查看
descripe()
帮助,似乎没有包含此功能的内容。我可以完全忽略文本字段,也可以获得它现在所在的引导版本。我同样在熊猫体内找不到不同的等价函数

有什么帮助吗,还是我不得不忍受


注意:我查看了
rpy2
,它似乎不适合
pandas
(或者至少对于我的安装,无论出于什么原因),我希望避免使用它只是为了快速总结。

您可以使用
df[“color”]获得相同的效果。value\u counts()


好的,我只需要在使用
descripe()
之前或之后循环所有我知道是对象的列,以获取复制它的编号信息。谢谢
In [21]: series = pd.Series(list("abcdefghijklmnop"*30))
In [22]: series.value_counts()
Out[22]:
 p    30
 n    30
 o    30
 l    30
 m    30
...