Nlp 如何预处理文本以匹配谷歌预先培训的word2vec模型？_Nlp_Gensim_Word2vec

Nlp 如何预处理文本以匹配谷歌预先培训的word2vec模型？

nlp

Nlp 如何预处理文本以匹配谷歌预先培训的word2vec模型？,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我想知道我必须在我的语料库上执行哪些步骤来预处理它，就像谷歌对他们庞大的、经过预训练的word2vec模型所做的那样（）根据该网站，他们做了以下工作：二元图/三元图删除一些停止词（仅常见的如：a、and、of）删除一些数字（仅不包括周围的字母）是否有详细说明所有步骤的来源他们是否也有，例如去掉一些标点符号一些字母小写茎或柠檬化 ? 我还没有看到任何关于如何对文本进行预处理以创建GoogleNewsword向量集的官方文章。查看包含的单词给出了一些提示–似乎没有任何词干/柠

我想知道我必须在我的语料库上执行哪些步骤来预处理它，就像谷歌对他们庞大的、经过预训练的word2vec模型所做的那样（）

根据该网站，他们做了以下工作：

二元图/三元图
删除一些停止词（仅常见的如：a、and、of）
删除一些数字（仅不包括周围的字母）

是否有详细说明所有步骤的来源

他们是否也有，例如

去掉一些标点符号
一些字母小写
茎或柠檬化 ?

我还没有看到任何关于如何对文本进行预处理以创建

GoogleNews

word向量集的官方文章。查看包含的单词给出了一些提示–似乎没有任何词干/柠檬化，许多单词的alt cased版本表明，如果应用了任何大小写规范化，则几乎没有什么意义。这些多词短语很可能是在最初的word2vec论文中描述的统计方法的多次使用下产生的，但它们的统计数据/语料库不可用。因此，如果试图匹配它们，他们文件中的实际标记列表可能是最好的指南。不过，请注意，

GoogleNews

向量现在已经有6年多的历史了，从一个非常大但私人的新闻文章集到谷歌的新闻文章培训集。对于新闻文章以外的领域，或者在过去5年中术语发展很多的领域，它们的用途可能有限。从新的/领域相关的数据中训练你自己的向量，或者使用其他较新的公共向量集，可能比尝试反向工程他们的决定更有成效。非常感谢！你的信息非常有用！