Algorithm 聚类标称数据
我正在尝试对我的数据集应用聚类算法。 我的数据集是电影,有些属性是名义上的。 例如:Algorithm 聚类标称数据,algorithm,cluster-analysis,data-science,Algorithm,Cluster Analysis,Data Science,我正在尝试对我的数据集应用聚类算法。 我的数据集是电影,有些属性是名义上的。 例如: movie 1: [ IMDB popularity: 1.02 Genre: Drama Sub-genre: Horror Rating: 1.23% ] movie 2: [ IMDB popularity: 2.08 Genre: Comedy Sub-genre: Animation Rating: 0.72% ] etc. etc. 我可以应用类似于K-means的东西吗? K-means是关
movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]
movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]
etc. etc.
我可以应用类似于K-means的东西吗?
K-means是关于距离的,如果我只把“戏剧”标记为0,“恐怖”标记为1,“喜剧”标记为2,“动画”标记为3,那么我实际上要说的是,例如,“戏剧”与“恐怖”的关系比与“喜剧”的关系更密切(在这个例子中,它可能在某种程度上接近现实,但在一般情况下,很难将单词标记为数字并保持真实的比率。
解决此问题的任何已知算法?统计中针对特定问题的传统解决方案是将值编码为不同的变量:
- 伊索罗
- 伊科梅迪
我更喜欢期望最大化聚类,这是k-均值的一个连续变量,因为它通常会产生更好的结果。你知道有一个datascience.se吗?我怀疑这种方法会产生任何有用的结果。@Anony Mousse…我在主成分聚类方面有很好的经验。但这是我的经验,你可能会有其他经验。这显然对他的恐怖/喜剧例子没有帮助,怎么办?看看他的数据和他的问题。PCA或聚类对这些数据没有任何帮助。