Machine learning 除tf idf之外的用于集群的其他文档功能？_Machine Learning_Cluster Analysis_Information Retrieval

Machine learning 除tf idf之外的用于集群的其他文档功能？

machine-learning

Machine learning 除tf idf之外的用于集群的其他文档功能？,machine-learning,cluster-analysis,information-retrieval,Machine Learning,Cluster Analysis,Information Retrieval,用于对文本文档进行聚类的文档的其他特征表示有哪些？我知道的唯一代表是tf idf。还有其他的吗？不是真正的权重（或它的极端版本），但我注意到，修剪频繁的特征会使使用k-means的文档聚类更加稳定：例如，您可以尝试修剪50%或更多文档的所有非零特征。我不明白您的意思，你能举一个例子吗？计算每个功能的文档频率（就像你计算TF-IDF的IDF一样），然后用df>0.5将所有功能归零或删除。这个问题不是编程问题，最好适合举例。

用于对文本文档进行聚类的文档的其他特征表示有哪些？我知道的唯一代表是tf idf。还有其他的吗？

不是真正的权重（或它的极端版本），但我注意到，修剪频繁的特征会使使用k-means的文档聚类更加稳定：例如，您可以尝试修剪50%或更多文档的所有非零特征。

我不明白您的意思，你能举一个例子吗？计算每个功能的文档频率（就像你计算TF-IDF的IDF一样），然后用

df>0.5

将所有功能归零或删除。这个问题不是编程问题，最好适合举例。