Machine learning 除tf idf之外的用于集群的其他文档功能?

Machine learning 除tf idf之外的用于集群的其他文档功能?,machine-learning,cluster-analysis,information-retrieval,Machine Learning,Cluster Analysis,Information Retrieval,用于对文本文档进行聚类的文档的其他特征表示有哪些?我知道的唯一代表是tf idf。还有其他的吗?不是真正的权重(或它的极端版本),但我注意到,修剪频繁的特征会使使用k-means的文档聚类更加稳定:例如,您可以尝试修剪50%或更多文档的所有非零特征。我不明白您的意思,你能举一个例子吗?计算每个功能的文档频率(就像你计算TF-IDF的IDF一样),然后用df>0.5将所有功能归零或删除。这个问题不是编程问题,最好适合举例。

用于对文本文档进行聚类的文档的其他特征表示有哪些?我知道的唯一代表是tf idf。还有其他的吗?

不是真正的权重(或它的极端版本),但我注意到,修剪频繁的特征会使使用k-means的文档聚类更加稳定:例如,您可以尝试修剪50%或更多文档的所有非零特征。

我不明白您的意思,你能举一个例子吗?计算每个功能的文档频率(就像你计算TF-IDF的IDF一样),然后用
df>0.5
将所有功能归零或删除。这个问题不是编程问题,最好适合举例。