Python 是否有函数提供有关数据帧的实际信息？_Python_R_Tidyverse

Python 是否有函数提供有关数据帧的实际信息？

python r

Python 是否有函数提供有关数据帧的实际信息？,python,r,tidyverse,Python,R,Tidyverse,在Python中，有一个函数data.info（）。此函数提供有关数据集的所有信息，如数据类型、内存、条目数等。您可以在此处查找有关中的.info（）函数的更多信息 R中是否也有一个函数提供此类信息？因此，这里我们有几个选项基尔在Base R中，有几个选项可用于获取与您的数据相关的此类数据： str 您可以使用str查看数据帧的结构 str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4

在Python中，有一个函数

data.info（）

。此函数提供有关数据集的所有信息，如数据类型、内存、条目数等。
您可以在此处查找有关中的

.info（）

函数的更多信息

R中是否也有一个函数提供此类信息？

因此，这里我们有几个选项

基尔在Base R中，有几个选项可用于获取与您的数据相关的此类数据：

str 您可以使用

str

查看数据帧的结构

str(iris)
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

总结此外，还有

summary

函数，该函数为每列完成一个五位数的摘要，然后计算因素：

summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500

dplyr

dplyr

提供了类似于

str

的内容，其中显示了一些数据类型

library(dplyr)
glimpse(iris)

Observations: 150
Variables: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.8, 4.8, 4.3, 5.8, 5.7, 5.4, 5.1, 5.7, 5...
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.4, 3.0, 3.0, 4.0, 4.4, 3.9, 3.5, 3.8, 3...
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, 1.4, 1.1, 1.2, 1.5, 1.3, 1.4, 1.7, 1...
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, 0.1, 0.1, 0.2, 0.4, 0.4, 0.3, 0.3, 0...
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, ...

在这些函数之间，您可以很好地查看您的数据

这不是一个单一的函数，但我经常做的前三件事是

库（tidyverse）
#显示前6行
虹膜%>%head（）
#给出data.frame的维度
虹膜%>%dim（）
#给出每列中的数据类别（例如数字、字符等）
虹膜%>%sapply（类）

我使用的最好的软件包是（Niels在上面的评论中提到）。inspectdf通过特定的函数调用完成了@MDEWITT中Skimer中的大部分总结；例如，

inspect_cat

和

inspect_num

分别用于分类变量和数值变量摘要

我的评论的贡献在于，inspectdf有两个附加功能

inspect\u imb

和

inspect\u cor

，分别查看每列最常见的值和数值列之间的相关性。我发现这些对于数据清理/预处理非常有用。

str（）

是一个基本选项，

scape（）

是的，这正是我想要的！谢谢这也是总结，或者如果你要去探索，试试这个-package@Niels如果我使用该软件包，我需要使用什么功能？是的，但主要关注不切实际的信息：）

library(skimr)
skim(iris)

-- Data Summary ------------------------
                           Values
Name                       iris  
Number of rows             150   
Number of columns          5     
_______________________          
Column type frequency:           
  factor                   1     
  numeric                  4     
________________________         
Group variables            None  

-- Variable type: factor -------------------------------------------------------
  skim_variable n_missing complete_rate ordered n_unique top_counts               
1 Species               0             1 FALSE          3 set: 50, ver: 50, vir: 50

-- Variable type: numeric ------------------------------------------------------
  skim_variable n_missing complete_rate  mean    sd    p0   p25   p50   p75  p100 hist 
1 Sepal.Length          0             1  5.84 0.828   4.3   5.1  5.8    6.4   7.9 ▆▇▇▅▂
2 Sepal.Width           0             1  3.06 0.436   2     2.8  3      3.3   4.4 ▁▆▇▂▁
3 Petal.Length          0             1  3.76 1.77    1     1.6  4.35   5.1   6.9 ▇▁▆▇▂
4 Petal.Width           0             1  1.20 0.762   0.1   0.3  1.3    1.8   2.5 ▇▁▇▅▃