Vector 比较一个文档和一个单词的向量

Vector 比较一个文档和一个单词的向量,vector,nlp,word2vec,doc2vec,Vector,Nlp,Word2vec,Doc2vec,所以,我必须比较文章的向量和单个单词的向量。我不知道怎么做。看起来BERT和Doc2wec可以很好地处理长文本,Word2vec可以处理单个单词。但是如何将长文本与一个单词进行比较呢?你也可以像对待单词一样使用BERT。一个单词就是一个很短的句子。所以,在理论上,你应该能够使用任何你喜欢的句子嵌入 但是,如果你没有任何监督数据,伯特不是你的最佳选择,还有更好的 我认为最好先尝试一下,如果它不起作用,那么就改用其他方法,比如SkipThoughts或USE 很抱歉,我帮不了你多少忙,它完全依赖于任

所以,我必须比较文章的向量和单个单词的向量。我不知道怎么做。看起来BERT和Doc2wec可以很好地处理长文本,Word2vec可以处理单个单词。但是如何将长文本与一个单词进行比较呢?

你也可以像对待单词一样使用BERT。一个单词就是一个很短的句子。所以,在理论上,你应该能够使用任何你喜欢的句子嵌入

但是,如果你没有任何监督数据,伯特不是你的最佳选择,还有更好的

我认为最好先尝试一下,如果它不起作用,那么就改用其他方法,比如SkipThoughts或USE


很抱歉,我帮不了你多少忙,它完全依赖于任务和数据,你应该测试不同的东西。

你也可以使用BERT作为单词。一个单词就是一个很短的句子。所以,在理论上,你应该能够使用任何你喜欢的句子嵌入

但是,如果你没有任何监督数据,伯特不是你的最佳选择,还有更好的

我认为最好先尝试一下,如果它不起作用,那么就改用其他方法,比如SkipThoughts或USE


很抱歉,我帮不了你多少忙,它完全依赖于任务和数据,你应该测试不同的东西。

根据你进一步的评论,进一步解释了你的问题,听起来你实际上是在尝试主题建模,按给定的词对文档进行分类等同于用该主题标记文档。如果这就是您正在做的,我建议您以LDA及其变体(如guidedLDA)为例进行研究

根据您进一步解释问题的评论,听起来您实际上是在尝试进行主题建模,按给定单词对文档进行分类相当于用该主题标记文档。如果这就是您正在做的,我建议您以LDA及其变体(如guidedLDA)为例进行研究

Python gensim等库中段落向量算法aka Doc2Vec的某些模式将文档向量和单词向量训练到共享坐标空间中。具体地说,如果启用使用DBOW_words=1的非默认交错字向量训练,则任何PV-DM DM=1模式或PV-DBOW模式DM=0

在这种情况下,您可以使用一些实用工具将Doc2Vec文档向量与共同训练的单词向量进行比较。你可以在下面的文章中看到一些例子,这些例子来自段落向量算法的发起者

然而,要注意的是,在使用上下文中训练过的单个单词的向量,可能没有与我们预期的相同单词作为主要类别时的向量相匹配的向量。例如,在许多句子中使用的教育不一定假设所有方面/广度,您可能期望将教育作为一个类别标题

这样的单个单词向量可能比没有更好,并且可能有助于作为引导工具。但是,如果您有专家标记的属于感兴趣类别的文档示例,那就更好了。然后,您还可以使用更高级的分类算法,对不一定由任何单个向量点概括的类别非常敏感。在真正感兴趣的领域中,这可能比使用单个词向量作为类别锚做得更好

对于文本矢量化的任何其他非Doc2Vec方法,您可以通过向该方法提供单个单词文本来获得单个单词的可比向量。即使在Doc2Vec模式下,不创建单词向量,比如纯PV-DBOW,您也可以使用该模型的训练外文本推理能力为单个单词doc、已知单词推断doc向量


但同样,这种简化/退化的单字输出可能无法很好地匹配您正在寻找的更一般/纹理类别。这些模型通常用于更大的上下文,将它们的输出缩小到单个单词可能比在真实上下文中通常导入单词更能反映这种非自然输入情况的特点

Python gensim等库中段落向量算法aka Doc2Vec的某些模式将文档向量和单词向量训练到共享坐标空间中。具体地说,如果启用使用DBOW_words=1的非默认交错字向量训练,则任何PV-DM DM=1模式或PV-DBOW模式DM=0

在这种情况下,您可以使用一些实用工具将Doc2Vec文档向量与共同训练的单词向量进行比较。你可以在下面的文章中看到一些例子,这些例子来自段落向量算法的发起者

然而,要注意的是,在使用上下文中训练过的单个单词的向量,可能没有与我们预期的相同单词作为主要类别时的向量相匹配的向量。例如,在许多句子中使用的教育不一定都假设所有的fa CET/作为类别标题,您可能期望从教育中获得的广度

这样的单个单词向量可能比没有更好,并且可能有助于作为引导工具。但是,如果您有专家标记的属于感兴趣类别的文档示例,那就更好了。然后,您还可以使用更高级的分类算法,对不一定由任何单个向量点概括的类别非常敏感。在真正感兴趣的领域中,这可能比使用单个词向量作为类别锚做得更好

对于文本矢量化的任何其他非Doc2Vec方法,您可以通过向该方法提供单个单词文本来获得单个单词的可比向量。即使在Doc2Vec模式下,不创建单词向量,比如纯PV-DBOW,您也可以使用该模型的训练外文本推理能力为单个单词doc、已知单词推断doc向量


但同样,这种简化/退化的单字输出可能无法很好地匹配您正在寻找的更一般/纹理类别。这些模型通常用于更大的上下文,将它们的输出缩小到单个单词可能比在真实上下文中通常导入单词更能反映这种非自然输入情况的特点

你能说说为什么你想用一个单词来比较一个长文本吗?当然,我想按类别对网站进行分组。我有几个类别的话,我需要集群的网站列表。所以,我决定将主页的主要内容与类别进行比较是一个好方法。你能详细说明一下为什么要将长文本与单个单词进行比较吗?当然,我想按类别对网站进行分组。我有几个类别的话,我需要集群的网站列表。所以,我决定将主页的主要内容与类别进行比较是一个好方法。谢谢,这已经是一个有用的信息了。你能告诉我它是什么意思吗?关于我的解决方案。我将按类别对网站进行聚类。因此,我认为将主页的主要内容与类别名称进行比较是一种很好的方法。我所说的监督数据是指一组网站及其相应的类别,因此在网站和Y类别中有一组X元素。通过这种方式,您可以根据您的需要对BERT进行微调,它应该可以非常好地工作。谢谢,它已经是一个有用的信息了。您可以告诉我它是什么意思吗?关于我的解决方案。我将按类别对网站进行聚类。因此,我认为将主页的主要内容与类别名称进行比较是一种很好的方法。我所说的监督数据是指一组网站及其相应的类别,因此在网站和Y类别中有一组X元素。通过这种方式,您可以根据您的需要对BERT进行微调,它应该工作得非常好。