Distance word2vec工具包距离脚本
我正在使用“距离”脚本在我构建的word2vec上查找类似的单词。它包含约160万个单词,由以下命令训练:Distance word2vec工具包距离脚本,distance,word2vec,Distance,Word2vec,我正在使用“距离”脚本在我构建的word2vec上查找类似的单词。它包含约160万个单词,由以下命令训练: ./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log & 我的问题是,当我键入任何单词
./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log &
我的问题是,当我键入任何单词时,我会得到以下结果:
输入单词或句子(退出以打断):rt
单词:rt在词汇表中的位置:658253
字余弦距离
输入单词或句子(退出以打断):nd
单词:第二位在词汇表中的位置:336527
字余弦距离
输入单词或句子(退出以打断):和
单词:和在词汇表中的位置:1600843
字余弦距离
输入单词或句子(退出以打断):快乐
词汇表中的快乐位置:-1
词典外的单词!
输入单词或句子(退出以打断):man
人在词汇表中的位置:470143
字余弦距离
输入单词或句子(退出以打断):女性
单词:女性在词汇表中的位置:-1
词典外的单词!
输入单词或句子(退出以打断):皇后
单词:女王在词汇表中的位置:-1
如果我从模型文件(文本文件)中grep这些单词,我会找到它们,所以我不确定为什么会发生这种情况,或者如何克服这种情况?这是因为数据中的噪音(我正在消除噪音)还是我使用的参数?答案很简单,我使用的是模型的文本格式,而不是二进制格式
-0.000451 0.494857
356414 0.477918
9 0.441466
83 0.432876
63 0.431347
-0.020525 0.429472
.047345 0.425791
36 0.423420
242 0.418320
... ...
3 0.494377
489 0.492153
632 0.483827
0.002335 0.462591
0693 0.458801
036869 0.452456
036819 0.447690
31 0.443887
... ...
080852 0.451752
57 0.438413
16577 0.437900
4 0.433538
.005464 0.429279
003131 0.422587
17380 0.420614
9 0.419624
5082 0.419569
0.019322 0.417945
.000435 0.417265
115991 0.414139
... ...
0.055039 0.488181
4793 0.455608
90743 0.454786
060493 0.453180
36 0.451387
6 0.450261
4 0.445118
830 0.442580
490 0.439919
0.025327 0.437766
0.005571 0.436606
0.001964 0.436544
-0.012627 0.434358
... ...