Python 如果变量包含的都是数字,如何知道它是分类变量还是数字变量?
我有一个数据集,它有几个Python 如果变量包含的都是数字,如何知道它是分类变量还是数字变量?,python,pandas,dataframe,statistics,data-analysis,Python,Pandas,Dataframe,Statistics,Data Analysis,我有一个数据集,它有几个变量 我想确定我们如何判断一个变量是分类的还是数字的,而不是唯一值计数法,例如,我的一个变量疾病类型有31个唯一值,而另一个变量距离fromOffice有25个唯一值,都是数字形式。.info()将给出每个变量的总计数以及它是否为非空及其数据类型,如float64,object,int64等。info()将给出每个变量的总计数以及它是否为非空及其数据类型,如float64,object,int64etc简单的回答是:你对问题领域/应用领域的知识将告诉你 您需要寻找一些差异
变量
我想确定我们如何判断一个变量是分类的还是数字的,而不是唯一值计数法,例如,我的一个变量疾病类型有31个唯一值,而另一个
变量距离fromOffice
有25个唯一值,都是数字形式。.info()
将给出每个变量的总计数以及它是否为非空及其数据类型,如float64
,object
,int64
等。info()
将给出每个变量的总计数以及它是否为非空及其数据类型,如float64
,object
,int64
etc简单的回答是:你对问题领域/应用领域的知识将告诉你
您需要寻找一些差异,但要应用这些差异,您仍然需要使用一些领域知识(有时是常识)
以下是一些有助于您区分的差异:
对于分类变量,允许的值集通常是固定的,并且很少改变(如果有的话)。相反,对于数值变量,值集可以更改,例如,当您收到同一数据集的新记录时
数值变量可能具有非整数的值。在您的示例中,即使“离办公室的距离”碰巧有整数值,这可能纯粹是偶然的,也可能是某些人对数据中需要多少数字精度的选择
对于分类变量,谈论平均值通常没有意义。例如,有两种类型的糖尿病称为1型,2型,但谈论这些类型的平均值(1.2357型?)是没有意义的
问自己这个拇指规则问题:当我进行数据分析时,我能用这个变量的特定值来表达我的推论吗?这个变量的范围如何(“0到5公里”、“5到10公里”等)。例如,我是否可以报告我的数据分析得出的结论,即“那些距离办公室123英里的人,在职业生涯中容易取得成功”?这个特定值听起来很傻,对吗?相反,若它是一个分类变量,比如2型糖尿病,你们总是可以根据具体值进行推断
简单的回答是:你对问题领域/应用领域的知识将告诉你
您需要寻找一些差异,但要应用这些差异,您仍然需要使用一些领域知识(有时是常识)
以下是一些有助于您区分的差异:
对于分类变量,允许的值集通常是固定的,并且很少改变(如果有的话)。相反,对于数值变量,值集可以更改,例如,当您收到同一数据集的新记录时
数值变量可能具有非整数的值。在您的示例中,即使“离办公室的距离”碰巧有整数值,这可能纯粹是偶然的,也可能是某些人对数据中需要多少数字精度的选择
对于分类变量,谈论平均值通常没有意义。例如,有两种类型的糖尿病称为1型,2型,但谈论这些类型的平均值(1.2357型?)是没有意义的
问自己这个拇指规则问题:当我进行数据分析时,我能用这个变量的特定值来表达我的推论吗?这个变量的范围如何(“0到5公里”、“5到10公里”等)。例如,我是否可以报告我的数据分析得出的结论,即“那些距离办公室123英里的人,在职业生涯中容易取得成功”?这个特定值听起来很傻,对吗?相反,若它是一个分类变量,比如2型糖尿病,你们总是可以根据具体值进行推断
检查df.dtypes
是否尝试查看该dtype?@SandeepKadapa是的,默认情况下它们都是int。但是作为探索性数据分析的一部分,我必须将它们转换为合适的类别。@coldspeed是的,默认情况下它们都是int。但是作为探索性数据分析的一部分,我必须将它们转换为合适的类别。检查df.dtypes
是否尝试查看数据类型?@SandeepKadapa是的,默认情况下它们都是int。但作为探索性数据分析的一部分,我必须将它们转换为合适的类别。@coldspeed是的,默认情况下它们都是int。但作为探索性数据分析的一部分,然后我必须将其转换为合适的类别。是的,dataframe.info()将给出加载到dataframe中的默认数据类型。我正在寻找的是一种逻辑或数字方法,通过对变量所包含的数据进行分析来确定变量的类型,在我的例子中,这些数据都是数字,这样我就可以将其转换为适当的类型。是的,dataframe.info()将给出加载到dataframe中的默认数据类型。我所寻找的是一种逻辑或数字方法,通过对它所包含的数据进行分析,找出变量的类型,在我的例子中,这些数据都是数字,这样我就可以将其转换为适当的类型。