Nlp 如何预处理文本以匹配谷歌预先培训的word2vec模型?

Nlp 如何预处理文本以匹配谷歌预先培训的word2vec模型?,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,我想知道我必须在我的语料库上执行哪些步骤来预处理它,就像谷歌对他们庞大的、经过预训练的word2vec模型所做的那样() 根据该网站,他们做了以下工作: 二元图/三元图 删除一些停止词(仅常见的如:a、and、of) 删除一些数字(仅不包括周围的字母) 是否有详细说明所有步骤的来源 他们是否也有,例如 去掉一些标点符号 一些字母小写 茎或柠檬化 ? 我还没有看到任何关于如何对文本进行预处理以创建GoogleNewsword向量集的官方文章。查看包含的单词给出了一些提示–似乎没有任何词干/柠

我想知道我必须在我的语料库上执行哪些步骤来预处理它,就像谷歌对他们庞大的、经过预训练的word2vec模型所做的那样()

根据该网站,他们做了以下工作:

  • 二元图/三元图
  • 删除一些停止词(仅常见的如:a、and、of)
  • 删除一些数字(仅不包括周围的字母)
是否有详细说明所有步骤的来源

他们是否也有,例如

  • 去掉一些标点符号
  • 一些字母小写
  • 茎或柠檬化 ?

我还没有看到任何关于如何对文本进行预处理以创建
GoogleNews
word向量集的官方文章。查看包含的单词给出了一些提示–似乎没有任何词干/柠檬化,许多单词的alt cased版本表明,如果应用了任何大小写规范化,则几乎没有什么意义。这些多词短语很可能是在最初的word2vec论文中描述的统计方法的多次使用下产生的,但它们的统计数据/语料库不可用。因此,如果试图匹配它们,他们文件中的实际标记列表可能是最好的指南。不过,请注意,
GoogleNews
向量现在已经有6年多的历史了,从一个非常大但私人的新闻文章集到谷歌的新闻文章培训集。对于新闻文章以外的领域,或者在过去5年中术语发展很多的领域,它们的用途可能有限。从新的/领域相关的数据中训练你自己的向量,或者使用其他较新的公共向量集,可能比尝试反向工程他们的决定更有成效。非常感谢!你的信息非常有用!