Machine learning 单词移动器&x27;两个文档的词对之间的距离计算

Machine learning 单词移动器&x27;两个文档的词对之间的距离计算,machine-learning,nlp,word2vec,word-embedding,wmd,Machine Learning,Nlp,Word2vec,Word Embedding,Wmd,根据WMD,差旅成本或词对之间的欧几里得距离的计算方法如下图所示 该距离是否按特定顺序成对计算?如图所示,每个文档中的第一个、第二个等等,或者奥巴马的距离是从D0中的所有四个单词计算出来的,然后这四个单词中的最小值仅显示在图中 有人能解释一下这是怎么回事吗 此外,为什么D3中的所有三个单词都要与D0中的President进行比较?大规模杀伤性武器的计算需要找到将第一个文本中的单词权重配置转换为第二个文本中的单词权重配置的最便宜方法 词序是不相关的。一个文本中的任何单词的质量都可以转移到另一个文

根据WMD,差旅成本或词对之间的欧几里得距离的计算方法如下图所示

该距离是否按特定顺序成对计算?如图所示,每个文档中的第一个、第二个等等,或者奥巴马的距离是从D0中的所有四个单词计算出来的,然后这四个单词中的最小值仅显示在图中

有人能解释一下这是怎么回事吗


此外,为什么D3中的所有三个单词都要与D0中的President进行比较?

大规模杀伤性武器的计算需要找到将第一个文本中的单词权重配置转换为第二个文本中的单词权重配置的最便宜方法

词序是不相关的。一个文本中的任何单词的质量都可以转移到另一个文本中任何单词的位置。优化过程,找到最佳的转移,因此将考虑许多可能的配对。在找到最佳方案后,最终单个WMD编号为该最佳方案中的总行程

由于字数的不同,单词可能不会一对一地移动,而是按照全文质量的比例移动。因此,考虑你所包含的图形中的底层例子:顶部文本D0有4个重要单词,而底部文本D3只有3个重要单词。因此,顶部文本的4个单词中的每一个都可以被认为具有0.25的质量,底部文本的每一个单词都可以被认为具有0.33的质量


因此,“奥巴马”可能与“总统”非常接近,但即使将0.25的“奥巴马”质量移动到“总统”上,也会留下0.08质量,必须移动到另一个D0单词。与“Illinois”和“Chicago”类似,即使将0.25的“Illinois”质量移动到“Chicago”,也会留下0.08,必须移动到另一个D0单词。选择的路径和比例的精确组合将是最好的,但通常会涉及一些单词在多个其他单词之间的微小移位。

Ahh好的。如果两个文本中有意义的单词相同,那么找到不同单词对之间的最小距离并选择最小距离的单词并将其相加应该是一个简单的算法。如果两个文本中的单词大小相同,那么最佳路径不是两个单词之间的最短欧氏距离吗?让我们说text1:word1-word2。文本2:word3,word4。因此,计算从word3到(word1,word2)以及从word4到(word1,word2)的距离。然后取两者的最小值作为wm距离。如果两个文本之间的有效词完全相同,WMD为0.0。如果文本的字数相同,计算就更简单(每个单词的质量可以正好与另一个单词的质量配对)。小的人为的例子(比如两个2字的文本)可能不能很好地说明在更典型的比较中会发生什么。但事实上,对于你的例子,你要计算两种可能的旅行计划:候选1=d(w1,w3)+d(w2,w4);候选人2=d(w1,w4)+d(w2,w3)。以较低者为准。(PyEMD图书馆gensim所使用的研究论文的实际优化并不需要对每一个可能的路由进行简单彻底的检查。但随着涉及的字数的增加,它仍然会变得更加昂贵——这与其他方法不同,在这些方法中,文本可以被赋予一个简单的摘要向量,然后快速进行余弦变换ce可比较,在恒定时间内,与其他相同的维度向量进行比较。)我可以指出,我在CrossValidated上为这个问题提供了一个(让我们说“备选”)答案,OP也提出了这个问题,这似乎是这个问题的“更正确”堆栈交换: