Machine learning 如何量化这些特征,以便在使用逻辑回归分析时对其进行分析?

Machine learning 如何量化这些特征,以便在使用逻辑回归分析时对其进行分析?,machine-learning,Machine Learning,我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集,但其中一些是无量纲量(我尝试使用z分数),但它们让事情变得更糟。这些是: Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this. User IDs (Like in a Hash form) How do I extract meaning from them? IP Addresses (You know what those

我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集,但其中一些是无量纲量(我尝试使用z分数),但它们让事情变得更糟。这些是:

Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this.
User IDs (Like in a Hash form) How do I extract meaning from them?
IP Addresses (You know what those are). I only extract the first 3 chars.
City (Has an ID like 1,15,72) How do I extract meaning from this?
Region (Same as city) Should I extract meaning from this or just leave it?
剩下的是价格、宽度和高度,这些都是可以理解的。任何帮助或见解都将不胜感激。谢谢。

  • 时间戳可以转换为Unix时间戳,这些时间戳是合理的自然数
  • 用户IF/城市/地区为标称值,必须以某种方式进行编码。最常见的方法是创建尽可能多的“虚拟”尺寸,尽可能多的值。因此,如果你有100个圆环,那么你可以创建100个维度,并且只在代表一个特定城市的一个维度上给出“1”(其他维度为0)
  • 应该删除IP,或者将其转换为一小部分IP(基于DNS网络标识和如上所述的名义到虚拟转换)

谢谢,我不知道时间戳如何作为功能增加价值,就城市和地区而言,我所拥有的只是数字,不知道什么城市和地区属于什么。IPs,嗯,我得到了前3个字符,但对我来说它似乎不是一个功能,但可能我从给定的数据中提取了错误的信息。时间戳只是根据实际值定义得很好。它们对于任何分类器都是可比较的,而您的日期则不是。就城市而言——我的答案不需要知道任何关于城市的信息,ID只适合这种编码。虽然提供的特征列表看起来不太有希望(如果能从这些数据中提取出任何“更深”的东西,我会感到惊讶)。没有,我有有有意义的数据,比如宽度、高度和其他实际值。好的,你是说我应该把日期转换成unix时间戳?你是这么说的吗?当我只是提取日期的HHMMDDMis部分时,这如何给我带来优势。因为时间戳有顺序。HHMMDD不能用机器学习算法进行分类,这是非常基本的事情。