Python 3.x 什么时候应该将年龄列转换为float或int?

Python 3.x 什么时候应该将年龄列转换为float或int?,python-3.x,pandas,dataframe,numpy,data-science,Python 3.x,Pandas,Dataframe,Numpy,Data Science,我有这个疑问,通常数据集的年龄列值是int或float数据类型(例如Titanic)。 因此,假设列具有所有浮点值,您是否应该将它们全部转换为int,或者在将其馈送到ML模型时让其与之类似, 它对预测结果有任何伤害或不利影响吗?正确的方法是什么?最好将年龄列转换为int。如果出现一些垃圾值,会影响模型。我们都很清楚年龄是一个整数 如果数据质量较高,并且您确信年龄不会浮动,那么您也可以不进行转换而继续进行。年龄是一个连续变量,即人们一直在变老,他们不只是一年变一次年龄,因此,最能反映老化过程的值应

我有这个疑问,通常数据集的年龄列值是int或float数据类型(例如Titanic)。 因此,假设列具有所有浮点值,您是否应该将它们全部转换为int,或者在将其馈送到ML模型时让其与之类似,
它对预测结果有任何伤害或不利影响吗?正确的方法是什么?

最好将年龄列转换为int。如果出现一些垃圾值,会影响模型。我们都很清楚年龄是一个整数


如果数据质量较高,并且您确信年龄不会浮动,那么您也可以不进行转换而继续进行。

年龄是一个连续变量,即人们一直在变老,他们不只是一年变一次年龄,因此,最能反映老化过程的值应该是
浮点
,而不是
整数
但是,使用
浮点
整数
取决于用例,例如:

  • 您是否使用年龄作为描述老年人的特征?更好地使用浮子(例如,59.9岁的人比59.1岁的人年龄大,可能更容易患上某些疾病,或者身体不太健康,在船舶沉没的情况下不太可能存活)
  • 您是否在报告年龄组?如果某些簇出现,可能最好是四舍五入(例如39.9->40)和潜在的分块(例如25-35、35-45)
  • 您是否正在进行一个评估未成年人饮酒的项目(从法律角度)?然后,您应该使用向下舍入的
    int
    值(例如,如果法定年龄为16岁,一个人为15.9岁,则法定年龄为15岁,因此未成年饮酒)
  • 等等
一般来说,您会发现没有一种处理数据的“正确方法”,这完全取决于用例