Machine learning 聚类算法的特征缩放(规范化)(如Kmeans和EM)

Machine learning 聚类算法的特征缩放(规范化)(如Kmeans和EM),machine-learning,cluster-analysis,normalization,feature-extraction,Machine Learning,Cluster Analysis,Normalization,Feature Extraction,我想使用KMeans聚类算法来分析概要文件数据。样本数据的格式为: Features: name ISBN Date ID price .... 'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 'B' '3241B' '08/19/2012/ 'ABCDE' 33.08 这些只是示例,实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法,如

我想使用KMeans聚类算法来分析概要文件数据。样本数据的格式为:

Features: name   ISBN     Date             ID      price ....
          'A'   '31NDB'  '05/18/2014'    'CBDDN'   12.00
          'B'   '3241B'  '08/19/2012/    'ABCDE'   33.08
这些只是示例,实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法,如何进行特征缩放,即归一化部分?我应该如何处理字符串值、日期值和价格(双倍)值?这些价值观之间有关系吗?我很困惑

有什么想法吗?

K-means和EM仅用于数字数据

将它们应用于名称/日期/价格类型的数据没有多大意义

顾名思义,算法需要计算平均值。如何计算“姓名”栏中的平均值?你可以在日期上写点东西,但不能在名字上写


不适合您的工作的工具。

您必须将非数字特征编码为数字。这是分类或顺序特征的情况

同样,如果某些特征对你的分析不重要,考虑扔掉它们。例如,如果您正在尝试对书籍进行分类,那么购买日期可能并不重要(或者可能不重要,取决于您所关心的内容),因此添加日期是没有意义的

例如,可以将变量编码为3个类别,例如,将其编码为3个变量[1,0,0]、[0,1,0]、[0,0,1],或编码为2个变量[0,0]、[1,0]、[0,1]。 关于这一点还有更多的讨论


请注意,由于您的KMeans/GMM(因为您避开了EM)将要计算点之间的距离,因此正确的编码尤其重要。了解它们需要什么,特别是当与不同的特征规范化方案一起使用时,并尝试不同的方案以查看结果。

那么工具应该是什么?对于非数字数据?假设我想把类似的书组合在一起?或者假设我正在分析服务器日志文件……例如,使用主题建模,这意味着要处理稀疏的文本数据,根据单词的存在和不存在,具有重叠的功能。因此,我必须将这些值(以某种方式)转换为数值?比如,date---date number和name string---(使用一些函数…)并找到它们之间的关系…?对不起,我可能没有什么意义,这是机器学习中的新手。。有什么方法或资料我可以阅读吗?谢谢