Machine learning 聚类算法的特征缩放（规范化）（如Kmeans和EM）_Machine Learning_Cluster Analysis_Normalization_Feature Extraction

Machine learning 聚类算法的特征缩放（规范化）（如Kmeans和EM）

machine-learning

Machine learning 聚类算法的特征缩放（规范化）（如Kmeans和EM）,machine-learning,cluster-analysis,normalization,feature-extraction,Machine Learning,Cluster Analysis,Normalization,Feature Extraction,我想使用KMeans聚类算法来分析概要文件数据。样本数据的格式为： Features: name ISBN Date ID price .... 'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 'B' '3241B' '08/19/2012/ 'ABCDE' 33.08 这些只是示例，实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法，如

我想使用KMeans聚类算法来分析概要文件数据。样本数据的格式为：

Features: name   ISBN     Date             ID      price ....
          'A'   '31NDB'  '05/18/2014'    'CBDDN'   12.00
          'B'   '3241B'  '08/19/2012/    'ABCDE'   33.08

这些只是示例，实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法，如何进行特征缩放，即归一化部分？我应该如何处理字符串值、日期值和价格（双倍）值？这些价值观之间有关系吗？我很困惑

有什么想法吗？

K-means和EM仅用于数字数据

将它们应用于名称/日期/价格类型的数据没有多大意义

顾名思义，算法需要计算平均值。如何计算“姓名”栏中的平均值？你可以在日期上写点东西，但不能在名字上写

不适合您的工作的工具。

您必须将非数字特征编码为数字。这是分类或顺序特征的情况

同样，如果某些特征对你的分析不重要，考虑扔掉它们。例如，如果您正在尝试对书籍进行分类，那么购买日期可能并不重要（或者可能不重要，取决于您所关心的内容），因此添加日期是没有意义的

例如，可以将变量编码为3个类别，例如，将其编码为3个变量[1,0,0]、[0,1,0]、[0,0,1]，或编码为2个变量[0,0]、[1,0]、[0,1]。关于这一点还有更多的讨论

请注意，由于您的KMeans/GMM（因为您避开了EM）将要计算点之间的距离，因此正确的编码尤其重要。了解它们需要什么，特别是当与不同的特征规范化方案一起使用时，并尝试不同的方案以查看结果。

那么工具应该是什么？对于非数字数据？假设我想把类似的书组合在一起？或者假设我正在分析服务器日志文件……例如，使用主题建模，这意味着要处理稀疏的文本数据，根据单词的存在和不存在，具有重叠的功能。因此，我必须将这些值（以某种方式）转换为数值？比如，date---date number和name string---（使用一些函数…）并找到它们之间的关系…？对不起，我可能没有什么意义，这是机器学习中的新手。。有什么方法或资料我可以阅读吗？谢谢