Nlp 哪种降维技术适用于BERT语句嵌入?

Nlp 哪种降维技术适用于BERT语句嵌入?,nlp,cluster-analysis,bert-language-model,dimensionality-reduction,Nlp,Cluster Analysis,Bert Language Model,Dimensionality Reduction,我正在尝试对数百个文本文档进行集群,以便每个集群代表一个不同的主题。我不想使用主题建模(我知道我也可以这样做),而是想遵循两步方法: 使用语句BERT创建文档嵌入(使用SentenceTransformer) 将嵌入项馈送到集群算法中 我知道我可以在第2步中使用k-means,但我更喜欢软聚类算法,因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。 我的嵌入有768维,当实现软聚类算法(高斯混合模型)时,我意识到高维导致了问题。因此,我考虑使用降维技术(例如PCA)并将因子输

我正在尝试对数百个文本文档进行集群,以便每个集群代表一个不同的主题。我不想使用主题建模(我知道我也可以这样做),而是想遵循两步方法:

  • 使用语句BERT创建文档嵌入(使用SentenceTransformer)
  • 将嵌入项馈送到集群算法中
  • 我知道我可以在第2步中使用k-means,但我更喜欢软聚类算法,因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。 我的嵌入有768维,当实现软聚类算法(高斯混合模型)时,我意识到高维导致了问题。因此,我考虑使用降维技术(例如PCA)并将因子输入到聚类算法中

    然而,我不太熟悉这种高维空间中的降维,尤其是在NLP的上下文中。这里有人能就一个好的方法/方法提出建议吗


    谢谢大家!

    我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用

    UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入,因为模型中有一个余弦损耗


    我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用

    UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入,因为模型中有一个余弦损耗