Nlp 哪种降维技术适用于BERT语句嵌入?
我正在尝试对数百个文本文档进行集群,以便每个集群代表一个不同的主题。我不想使用主题建模(我知道我也可以这样做),而是想遵循两步方法:Nlp 哪种降维技术适用于BERT语句嵌入?,nlp,cluster-analysis,bert-language-model,dimensionality-reduction,Nlp,Cluster Analysis,Bert Language Model,Dimensionality Reduction,我正在尝试对数百个文本文档进行集群,以便每个集群代表一个不同的主题。我不想使用主题建模(我知道我也可以这样做),而是想遵循两步方法: 使用语句BERT创建文档嵌入(使用SentenceTransformer) 将嵌入项馈送到集群算法中 我知道我可以在第2步中使用k-means,但我更喜欢软聚类算法,因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。 我的嵌入有768维,当实现软聚类算法(高斯混合模型)时,我意识到高维导致了问题。因此,我考虑使用降维技术(例如PCA)并将因子输
谢谢大家! 我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用 UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入,因为模型中有一个余弦损耗
我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用 UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入,因为模型中有一个余弦损耗