Machine learning Word2Vec模型测试的问题对（基本事实）数据集？_Machine Learning_Nlp_Word2vec_Word Embedding

Machine learning Word2Vec模型测试的问题对（基本事实）数据集？

machine-learning nlp

Machine learning Word2Vec模型测试的问题对（基本事实）数据集？,machine-learning,nlp,word2vec,word-embedding,Machine Learning,Nlp,Word2vec,Word Embedding,我正在寻找测试数据集来优化我的Word2Vec模型。我从gensim找到了一个好的： gensim/test/test_data/questions-words.txt 有人知道其他类似的数据集吗谢谢大家! 需要注意的是，单词向量并没有真正的“基本事实”。你可以用它们完成一些有趣的任务，在特定任务中，一些词向量的安排会比其他的更好但同样，在一项任务中效果最好的词向量——比如以questions words.txtproblems的风格进行类比求解——可能在另一项重要任务中效果不佳——比如为分

我正在寻找测试数据集来优化我的Word2Vec模型。我从gensim找到了一个好的：

gensim/test/test_data/questions-words.txt

有人知道其他类似的数据集吗

谢谢大家!

需要注意的是，单词向量并没有真正的“基本事实”。你可以用它们完成一些有趣的任务，在特定任务中，一些词向量的安排会比其他的更好

但同样，在一项任务中效果最好的词向量——比如以

questions words.txt

problems的风格进行类比求解——可能在另一项重要任务中效果不佳——比如为分类或信息检索建模文本

也就是说，您可以使用与

questions words.txt

相同的格式制作自己的测试数据。谷歌最初的

word2vec.c

版本还包括一个工具，用于将附近的单词统计组合成多单词短语，还包括一个相同格式的文件，可用于测试为实际上是短多单词短语的“单词”类似构造的单词向量

Python

gensim

word vectors支持包括一个额外的方法，用于检查单词向量，而不是根据类比解决，而是根据人类确定的单词相似度排名集合的一致性。该方法的文档包括指向该方法的适当测试集的链接，您可以在其他地方找到相同格式的其他测试集

但是，这些都不应该被认为是对词向量整体质量的绝对测试。对于您的特定项目使用词向量而言，最好的测试是您自己设计的一些可重复的特定领域评估分数，这与您的最终目标有着内在的相关性。

欢迎您这样做；请务必花些时间阅读，注意，要求我们推荐或查找书籍、工具、软件库、教程或其他非网站资源的问题都是离题的。非常感谢，您的回答真的很有帮助！！