Machine learning 获取K-means聚类任务的句子向量_Machine Learning_Nlp_Vectorization_Gensim_Word2vec

Machine learning 获取K-means聚类任务的句子向量

machine-learning nlp

Machine learning 获取K-means聚类任务的句子向量,machine-learning,nlp,vectorization,gensim,word2vec,Machine Learning,Nlp,Vectorization,Gensim,Word2vec,我正在从事一个项目，该项目使用K-means将发布在各种工作门户上的工作分组为基于工作描述的集群我用Word2Vec找到了工作向量，但我想这不会起作用，因为我需要一个完整工作描述的向量我知道我可以平均出一个句子的单词向量来得到这个句子向量，但是我担心它的准确性，因为这会影响单词的顺序有没有其他方法可以获取向量？最常用的文本向量化方法：纯的，仍然是有用的，特别是使用n-gram 使用Word2Vec获取单词的向量。对于整个文本，使用所有向量的平均值结合前两种方法：使用TF-IDF中的系数

我正在从事一个项目，该项目使用K-means将发布在各种工作门户上的工作分组为基于工作描述的集群

我用Word2Vec找到了工作向量，但我想这不会起作用，因为我需要一个完整工作描述的向量

我知道我可以平均出一个句子的单词向量来得到这个句子向量，但是我担心它的准确性，因为这会影响单词的顺序

有没有其他方法可以获取向量？

最常用的文本向量化方法：

纯的，仍然是有用的，特别是使用n-gram

使用Word2Vec获取单词的向量。对于整个文本，使用所有向量的平均值

结合前两种方法：使用TF-IDF中的系数获得文本中所有单词的加权平均值

我建议您尝试每种方法，并选择在您的案例中表现更好的方法。结果可能略有不同，这取决于数据的性质。

您可以通过非常有用的句子嵌入方法（例如或甚至）促进迁移学习。所有这些都很容易使用，而且网上有很多教程。在大多数情况下，它们比TF-IDF工作得更好。

您也可以尝试doc2vec，它是word2vec的一个扩展，用于构建整个文档的表示形式。gensim中有一个可用的实现：