Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/matlab/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 聚类标称数据_Algorithm_Cluster Analysis_Data Science - Fatal编程技术网

Algorithm 聚类标称数据

Algorithm 聚类标称数据,algorithm,cluster-analysis,data-science,Algorithm,Cluster Analysis,Data Science,我正在尝试对我的数据集应用聚类算法。 我的数据集是电影,有些属性是名义上的。 例如: movie 1: [ IMDB popularity: 1.02 Genre: Drama Sub-genre: Horror Rating: 1.23% ] movie 2: [ IMDB popularity: 2.08 Genre: Comedy Sub-genre: Animation Rating: 0.72% ] etc. etc. 我可以应用类似于K-means的东西吗? K-means是关

我正在尝试对我的数据集应用聚类算法。 我的数据集是电影,有些属性是名义上的。 例如:

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.
我可以应用类似于K-means的东西吗? K-means是关于距离的,如果我只把“戏剧”标记为0,“恐怖”标记为1,“喜剧”标记为2,“动画”标记为3,那么我实际上要说的是,例如,“戏剧”与“恐怖”的关系比与“喜剧”的关系更密切(在这个例子中,它可能在某种程度上接近现实,但在一般情况下,很难将单词标记为数字并保持真实的比率。
解决此问题的任何已知算法?

统计中针对特定问题的传统解决方案是将值编码为不同的变量:

  • 伊索罗
  • 伊科梅迪
然后可以对结果运行k-means

我想提出两点意见。首先,确保以某种方式对值进行规范化(标准化或标准化主成分是两种典型的方法)


我更喜欢期望最大化聚类,这是k-均值的一个连续变量,因为它通常会产生更好的结果。

你知道有一个datascience.se吗?我怀疑这种方法会产生任何有用的结果。@Anony Mousse…我在主成分聚类方面有很好的经验。但这是我的经验,你可能会有其他经验。这显然对他的恐怖/喜剧例子没有帮助,怎么办?看看他的数据和他的问题。PCA或聚类对这些数据没有任何帮助。