Algorithm 聚类标称数据_Algorithm_Cluster Analysis_Data Science

Algorithm 聚类标称数据

algorithm

Algorithm 聚类标称数据,algorithm,cluster-analysis,data-science,Algorithm,Cluster Analysis,Data Science,我正在尝试对我的数据集应用聚类算法。我的数据集是电影，有些属性是名义上的。例如： movie 1: [ IMDB popularity: 1.02 Genre: Drama Sub-genre: Horror Rating: 1.23% ] movie 2: [ IMDB popularity: 2.08 Genre: Comedy Sub-genre: Animation Rating: 0.72% ] etc. etc. 我可以应用类似于K-means的东西吗？ K-means是关

我正在尝试对我的数据集应用聚类算法。我的数据集是电影，有些属性是名义上的。例如：

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.

我可以应用类似于K-means的东西吗？ K-means是关于距离的，如果我只把“戏剧”标记为0，“恐怖”标记为1，“喜剧”标记为2，“动画”标记为3，那么我实际上要说的是，例如，“戏剧”与“恐怖”的关系比与“喜剧”的关系更密切（在这个例子中，它可能在某种程度上接近现实，但在一般情况下，很难将单词标记为数字并保持真实的比率。

解决此问题的任何已知算法？

统计中针对特定问题的传统解决方案是将值编码为不同的变量：

伊索罗
伊科梅迪

然后可以对结果运行k-means

我想提出两点意见。首先，确保以某种方式对值进行规范化（标准化或标准化主成分是两种典型的方法）

我更喜欢期望最大化聚类，这是k-均值的一个连续变量，因为它通常会产生更好的结果。

你知道有一个datascience.se吗？我怀疑这种方法会产生任何有用的结果。@Anony Mousse…我在主成分聚类方面有很好的经验。但这是我的经验，你可能会有其他经验。这显然对他的恐怖/喜剧例子没有帮助，怎么办？看看他的数据和他的问题。PCA或聚类对这些数据没有任何帮助。