Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Spark word2vec示例说明和如何获得字符串之间的相似性_Java_Apache Spark_Word2vec_Cosine Similarity - Fatal编程技术网

Java Spark word2vec示例说明和如何获得字符串之间的相似性

Java Spark word2vec示例说明和如何获得字符串之间的相似性,java,apache-spark,word2vec,cosine-similarity,Java,Apache Spark,Word2vec,Cosine Similarity,我按照Spark文档页面中的示例使用word2vec。它工作了,但我不太明白它试图计算什么 输出向量是输出字符串的表示形式吗 如果是,我试图计算它们之间的余弦相似性,但是我得到了负值,因为向量不是正的 Spark word2vec能否创建纯正向量 如何使用Spark word2vec计算字符串列表之间的相似性 通过对数据集进行变换得到的输出向量是提供给模型的一个或多个句子的表示;本质上,这个输出是给定文档中每个单词的所有向量表示的组合,很可能是一个简单的向量和 您可以使用findSynonyms

我按照Spark文档页面中的示例使用word2vec。它工作了,但我不太明白它试图计算什么

输出向量是输出字符串的表示形式吗

如果是,我试图计算它们之间的余弦相似性,但是我得到了负值,因为向量不是正的

Spark word2vec能否创建纯正向量

如何使用Spark word2vec计算字符串列表之间的相似性

通过对数据集进行变换得到的输出向量是提供给模型的一个或多个句子的表示;本质上,这个输出是给定文档中每个单词的所有向量表示的组合,很可能是一个简单的向量和

您可以使用findSynonyms获取与给定单词最相似的单词数。findSynonyms仅基于余弦相似性。 目前,我正在使用它生成特征向量,并将其用作另一个模型的输入

为了将两个字符串之间的相似性计算为某种编号,您需要实现FindSynoyms方法的一些变体。当前实现生成与输入字符串相对应的cosVec,然后尝试查找最接近该vec的单词vec

我不确定零件是否只能生成正向量,以及是否需要/有意义仅生成正向量


Word2VecModel转换返回句子的向量表示形式,平均这些单词的向量表示形式。计算句子之间的相似度平均余弦相似度有意义吗?或者使用密集向量表示法寻找另一个相似性度量更有意义吗?平均值不是余弦相似性。本质上是:句子向量=构成该句子的所有单词的向量表示的平均值。。。。将单词表示为向量是模型学习的内容。对于句子的相似性,您需要找到模型输出的向量之间的余弦。