Machine learning 获取K-means聚类任务的句子向量

Machine learning 获取K-means聚类任务的句子向量,machine-learning,nlp,vectorization,gensim,word2vec,Machine Learning,Nlp,Vectorization,Gensim,Word2vec,我正在从事一个项目,该项目使用K-means将发布在各种工作门户上的工作分组为基于工作描述的集群 我用Word2Vec找到了工作向量,但我想这不会起作用,因为我需要一个完整工作描述的向量 我知道我可以平均出一个句子的单词向量来得到这个句子向量,但是我担心它的准确性,因为这会影响单词的顺序 有没有其他方法可以获取向量?最常用的文本向量化方法: 纯的,仍然是有用的,特别是使用n-gram 使用Word2Vec获取单词的向量。对于整个文本,使用所有向量的平均值 结合前两种方法:使用TF-IDF中的系数

我正在从事一个项目,该项目使用K-means将发布在各种工作门户上的工作分组为基于工作描述的集群

我用Word2Vec找到了工作向量,但我想这不会起作用,因为我需要一个完整工作描述的向量

我知道我可以平均出一个句子的单词向量来得到这个句子向量,但是我担心它的准确性,因为这会影响单词的顺序


有没有其他方法可以获取向量?

最常用的文本向量化方法:

  • 纯的,仍然是有用的,特别是使用n-gram
  • 使用Word2Vec获取单词的向量。对于整个文本,使用所有向量的平均值
  • 结合前两种方法:使用TF-IDF中的系数获得文本中所有单词的加权平均值

  • 我建议您尝试每种方法,并选择在您的案例中表现更好的方法。结果可能略有不同,这取决于数据的性质。

    您可以通过非常有用的句子嵌入方法(例如或甚至)促进迁移学习。所有这些都很容易使用,而且网上有很多教程。在大多数情况下,它们比TF-IDF工作得更好。

    您也可以尝试doc2vec,它是word2vec的一个扩展,用于构建整个文档的表示形式。gensim中有一个可用的实现: