Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/macos/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Distance word2vec工具包距离脚本_Distance_Word2vec - Fatal编程技术网

Distance word2vec工具包距离脚本

Distance word2vec工具包距离脚本,distance,word2vec,Distance,Word2vec,我正在使用“距离”脚本在我构建的word2vec上查找类似的单词。它包含约160万个单词,由以下命令训练: ./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log & 我的问题是,当我键入任何单词

我正在使用“距离”脚本在我构建的word2vec上查找类似的单词。它包含约160万个单词,由以下命令训练:

./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log &
我的问题是,当我键入任何单词时,我会得到以下结果: 输入单词或句子(退出以打断):rt

单词:rt在词汇表中的位置:658253

字余弦距离 输入单词或句子(退出以打断):nd

单词:第二位在词汇表中的位置:336527

字余弦距离 输入单词或句子(退出以打断):和

单词:和在词汇表中的位置:1600843

字余弦距离 输入单词或句子(退出以打断):快乐

词汇表中的快乐位置:-1 词典外的单词! 输入单词或句子(退出以打断):man

人在词汇表中的位置:470143

字余弦距离 输入单词或句子(退出以打断):女性

单词:女性在词汇表中的位置:-1 词典外的单词! 输入单词或句子(退出以打断):皇后

单词:女王在词汇表中的位置:-1


如果我从模型文件(文本文件)中grep这些单词,我会找到它们,所以我不确定为什么会发生这种情况,或者如何克服这种情况?这是因为数据中的噪音(我正在消除噪音)还是我使用的参数?

答案很简单,我使用的是模型的文本格式,而不是二进制格式

                                     -0.000451              0.494857
                                        356414              0.477918
                                             9              0.441466
                                            83              0.432876
                                            63              0.431347
                                     -0.020525              0.429472
                                       .047345              0.425791
                                            36              0.423420
                                           242              0.418320
                                         ...                   ...
                                             3              0.494377
                                           489              0.492153
                                           632              0.483827
                                      0.002335              0.462591
                                          0693              0.458801
                                        036869              0.452456
                                        036819              0.447690
                                            31              0.443887
                                         ...                   ...
                                        080852              0.451752
                                            57              0.438413
                                         16577              0.437900
                                             4              0.433538
                                       .005464              0.429279
                                        003131              0.422587
                                         17380              0.420614
                                             9              0.419624
                                          5082              0.419569
                                      0.019322              0.417945
                                       .000435              0.417265
                                        115991              0.414139
                                         ...                   ...
                                      0.055039              0.488181
                                          4793              0.455608
                                         90743              0.454786
                                        060493              0.453180
                                            36              0.451387
                                             6              0.450261
                                             4              0.445118
                                           830              0.442580
                                           490              0.439919
                                      0.025327              0.437766
                                      0.005571              0.436606
                                      0.001964              0.436544
                                     -0.012627              0.434358
                                         ...                   ...