Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/340.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如果变量包含的都是数字,如何知道它是分类变量还是数字变量?_Python_Pandas_Dataframe_Statistics_Data Analysis - Fatal编程技术网

Python 如果变量包含的都是数字,如何知道它是分类变量还是数字变量?

Python 如果变量包含的都是数字,如何知道它是分类变量还是数字变量?,python,pandas,dataframe,statistics,data-analysis,Python,Pandas,Dataframe,Statistics,Data Analysis,我有一个数据集,它有几个变量 我想确定我们如何判断一个变量是分类的还是数字的,而不是唯一值计数法,例如,我的一个变量疾病类型有31个唯一值,而另一个变量距离fromOffice有25个唯一值,都是数字形式。.info()将给出每个变量的总计数以及它是否为非空及其数据类型,如float64,object,int64等。info()将给出每个变量的总计数以及它是否为非空及其数据类型,如float64,object,int64etc简单的回答是:你对问题领域/应用领域的知识将告诉你 您需要寻找一些差异

我有一个数据集,它有几个
变量


我想确定我们如何判断一个变量是分类的还是数字的,而不是唯一值计数法,例如,我的一个变量疾病类型有31个唯一值,而另一个
变量距离
from
Office
有25个唯一值,都是数字形式。

.info()
将给出每个变量的总计数以及它是否为非空及其数据类型,如
float64
object
int64
等。info()
将给出每个变量的总计数以及它是否为非空及其数据类型,如
float64
object
int64
etc

简单的回答是:你对问题领域/应用领域的知识将告诉你

您需要寻找一些差异,但要应用这些差异,您仍然需要使用一些领域知识(有时是常识)

以下是一些有助于您区分的差异:

  • 对于分类变量,允许的值集通常是固定的,并且很少改变(如果有的话)。相反,对于数值变量,值集可以更改,例如,当您收到同一数据集的新记录时
  • 数值变量可能具有非整数的值。在您的示例中,即使“离办公室的距离”碰巧有整数值,这可能纯粹是偶然的,也可能是某些人对数据中需要多少数字精度的选择
  • 对于分类变量,谈论平均值通常没有意义。例如,有两种类型的糖尿病称为1型,2型,但谈论这些类型的平均值(1.2357型?)是没有意义的
  • 问自己这个拇指规则问题:当我进行数据分析时,我能用这个变量的特定值来表达我的推论吗?这个变量的范围如何(“0到5公里”、“5到10公里”等)。例如,我是否可以报告我的数据分析得出的结论,即“那些距离办公室123英里的人,在职业生涯中容易取得成功”?这个特定值听起来很傻,对吗?相反,若它是一个分类变量,比如2型糖尿病,你们总是可以根据具体值进行推断

  • 简单的回答是:你对问题领域/应用领域的知识将告诉你

    您需要寻找一些差异,但要应用这些差异,您仍然需要使用一些领域知识(有时是常识)

    以下是一些有助于您区分的差异:

  • 对于分类变量,允许的值集通常是固定的,并且很少改变(如果有的话)。相反,对于数值变量,值集可以更改,例如,当您收到同一数据集的新记录时
  • 数值变量可能具有非整数的值。在您的示例中,即使“离办公室的距离”碰巧有整数值,这可能纯粹是偶然的,也可能是某些人对数据中需要多少数字精度的选择
  • 对于分类变量,谈论平均值通常没有意义。例如,有两种类型的糖尿病称为1型,2型,但谈论这些类型的平均值(1.2357型?)是没有意义的
  • 问自己这个拇指规则问题:当我进行数据分析时,我能用这个变量的特定值来表达我的推论吗?这个变量的范围如何(“0到5公里”、“5到10公里”等)。例如,我是否可以报告我的数据分析得出的结论,即“那些距离办公室123英里的人,在职业生涯中容易取得成功”?这个特定值听起来很傻,对吗?相反,若它是一个分类变量,比如2型糖尿病,你们总是可以根据具体值进行推断

  • 检查
    df.dtypes
    是否尝试查看该dtype?@SandeepKadapa是的,默认情况下它们都是int。但是作为探索性数据分析的一部分,我必须将它们转换为合适的类别。@coldspeed是的,默认情况下它们都是int。但是作为探索性数据分析的一部分,我必须将它们转换为合适的类别。检查
    df.dtypes
    是否尝试查看数据类型?@SandeepKadapa是的,默认情况下它们都是int。但作为探索性数据分析的一部分,我必须将它们转换为合适的类别。@coldspeed是的,默认情况下它们都是int。但作为探索性数据分析的一部分,然后我必须将其转换为合适的类别。是的,dataframe.info()将给出加载到dataframe中的默认数据类型。我正在寻找的是一种逻辑或数字方法,通过对变量所包含的数据进行分析来确定变量的类型,在我的例子中,这些数据都是数字,这样我就可以将其转换为适当的类型。是的,dataframe.info()将给出加载到dataframe中的默认数据类型。我所寻找的是一种逻辑或数字方法,通过对它所包含的数据进行分析,找出变量的类型,在我的例子中,这些数据都是数字,这样我就可以将其转换为适当的类型。