Nlp 哪种降维技术适用于BERT语句嵌入？_Nlp_Cluster Analysis_Bert Language Model_Dimensionality Reduction

Nlp 哪种降维技术适用于BERT语句嵌入？

nlp

Nlp 哪种降维技术适用于BERT语句嵌入？,nlp,cluster-analysis,bert-language-model,dimensionality-reduction,Nlp,Cluster Analysis,Bert Language Model,Dimensionality Reduction,我正在尝试对数百个文本文档进行集群，以便每个集群代表一个不同的主题。我不想使用主题建模（我知道我也可以这样做），而是想遵循两步方法：使用语句BERT创建文档嵌入（使用SentenceTransformer）将嵌入项馈送到集群算法中我知道我可以在第2步中使用k-means，但我更喜欢软聚类算法，因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。我的嵌入有768维，当实现软聚类算法（高斯混合模型）时，我意识到高维导致了问题。因此，我考虑使用降维技术（例如PCA）并将因子输

我正在尝试对数百个文本文档进行集群，以便每个集群代表一个不同的主题。我不想使用主题建模（我知道我也可以这样做），而是想遵循两步方法：

使用语句BERT创建文档嵌入（使用SentenceTransformer）

将嵌入项馈送到集群算法中

我知道我可以在第2步中使用k-means，但我更喜欢软聚类算法，因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。我的嵌入有768维，当实现软聚类算法（高斯混合模型）时，我意识到高维导致了问题。因此，我考虑使用降维技术（例如PCA）并将因子输入到聚类算法中

然而，我不太熟悉这种高维空间中的降维，尤其是在NLP的上下文中。这里有人能就一个好的方法/方法提出建议吗

谢谢大家!

我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用

UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入，因为模型中有一个余弦损耗

我认为您应该将UMAP视为有效的dim。减少。PCA和UMAP都相对快速且易于使用

UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合SentenceBERT嵌入，因为模型中有一个余弦损耗