Machine learning 如何量化这些特征,以便在使用逻辑回归分析时对其进行分析?
我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集,但其中一些是无量纲量(我尝试使用z分数),但它们让事情变得更糟。这些是:Machine learning 如何量化这些特征,以便在使用逻辑回归分析时对其进行分析?,machine-learning,Machine Learning,我有一个很小的问题一直困扰着我一段时间。我有一个具有有趣特性的数据集,但其中一些是无量纲量(我尝试使用z分数),但它们让事情变得更糟。这些是: Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this. User IDs (Like in a Hash form) How do I extract meaning from them? IP Addresses (You know what those
Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this.
User IDs (Like in a Hash form) How do I extract meaning from them?
IP Addresses (You know what those are). I only extract the first 3 chars.
City (Has an ID like 1,15,72) How do I extract meaning from this?
Region (Same as city) Should I extract meaning from this or just leave it?
剩下的是价格、宽度和高度,这些都是可以理解的。任何帮助或见解都将不胜感激。谢谢。- 时间戳可以转换为Unix时间戳,这些时间戳是合理的自然数
- 用户IF/城市/地区为标称值,必须以某种方式进行编码。最常见的方法是创建尽可能多的“虚拟”尺寸,尽可能多的值。因此,如果你有100个圆环,那么你可以创建100个维度,并且只在代表一个特定城市的一个维度上给出“1”(其他维度为0)
- 应该删除IP,或者将其转换为一小部分IP(基于DNS网络标识和如上所述的名义到虚拟转换)