Machine learning 如何量化这些特征，以便在使用逻辑回归分析时对其进行分析？_Machine Learning

Machine learning 如何量化这些特征，以便在使用逻辑回归分析时对其进行分析？

machine-learning

Machine learning 如何量化这些特征，以便在使用逻辑回归分析时对其进行分析？,machine-learning,Machine Learning,我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集，但其中一些是无量纲量（我尝试使用z分数），但它们让事情变得更糟。这些是： Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this. User IDs (Like in a Hash form) How do I extract meaning from them? IP Addresses (You know what those

我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集，但其中一些是无量纲量（我尝试使用z分数），但它们让事情变得更糟。这些是：

Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this.
User IDs (Like in a Hash form) How do I extract meaning from them?
IP Addresses (You know what those are). I only extract the first 3 chars.
City (Has an ID like 1,15,72) How do I extract meaning from this?
Region (Same as city) Should I extract meaning from this or just leave it?

剩下的是价格、宽度和高度，这些都是可以理解的。任何帮助或见解都将不胜感激。谢谢。

时间戳可以转换为Unix时间戳，这些时间戳是合理的自然数
用户IF/城市/地区为标称值，必须以某种方式进行编码。最常见的方法是创建尽可能多的“虚拟”尺寸，尽可能多的值。因此，如果你有100个圆环，那么你可以创建100个维度，并且只在代表一个特定城市的一个维度上给出“1”（其他维度为0）
应该删除IP，或者将其转换为一小部分IP（基于DNS网络标识和如上所述的名义到虚拟转换）

谢谢，我不知道时间戳如何作为功能增加价值，就城市和地区而言，我所拥有的只是数字，不知道什么城市和地区属于什么。IPs，嗯，我得到了前3个字符，但对我来说它似乎不是一个功能，但可能我从给定的数据中提取了错误的信息。时间戳只是根据实际值定义得很好。它们对于任何分类器都是可比较的，而您的日期则不是。就城市而言——我的答案不需要知道任何关于城市的信息，ID只适合这种编码。虽然提供的特征列表看起来不太有希望（如果能从这些数据中提取出任何“更深”的东西，我会感到惊讶）。没有，我有有有意义的数据，比如宽度、高度和其他实际值。好的，你是说我应该把日期转换成unix时间戳？你是这么说的吗？当我只是提取日期的HHMMDDMis部分时，这如何给我带来优势。因为时间戳有顺序。HHMMDD不能用机器学习算法进行分类，这是非常基本的事情。