Nlp 基于不同嵌入算法的语料库预处理

Nlp 基于不同嵌入算法的语料库预处理,nlp,word-embedding,Nlp,Word Embedding,对于我的学士学位,我需要在同一个语料库上训练不同的单词嵌入算法来测试它们。 我希望找到预处理步骤,但不确定使用哪些步骤,哪些步骤可能不太有用 我已经寻找了一些研究,但也想问问是否有人有这方面的经验 我的目标是在同一语料库上训练Word2Vec、FastText和手套嵌入。现在不太确定是哪一个,但我想到了维基百科或类似的东西 我认为: 词性标注 使用正则表达式或类似表达式删除非字母字符 停止字删除 柠檬化 流行语 这些都是合乎逻辑的选择 但是我听说删除stopword可能有点棘手,因为有些嵌入

对于我的学士学位,我需要在同一个语料库上训练不同的单词嵌入算法来测试它们。 我希望找到预处理步骤,但不确定使用哪些步骤,哪些步骤可能不太有用

我已经寻找了一些研究,但也想问问是否有人有这方面的经验

我的目标是在同一语料库上训练Word2Vec、FastText和手套嵌入。现在不太确定是哪一个,但我想到了维基百科或类似的东西

我认为:

  • 词性标注
  • 使用正则表达式或类似表达式删除非字母字符
  • 停止字删除
  • 柠檬化
  • 流行语
这些都是合乎逻辑的选择

但是我听说删除stopword可能有点棘手,因为有些嵌入仍然可能包含stopwords,因为自动删除stopword可能不适合任何模型/语料库


此外,我还没有决定是选择spacy还是nltk作为库,spacy更强大,但nltk主要用于我正在撰写的文章中。

预处理类似于超参数优化或神经架构搜索。对于“我应该使用哪一个”没有一个理论上的答案。该领域的应用部分(NLP)远远领先于理论。您只需运行不同的组合,直到找到最有效的组合(根据您选择的度量)


是的,维基百科很棒,几乎每个人都使用它(加上其他数据集)。我尝试过spacy,它很强大,但我认为我犯了一个错误,我最终编写了自己的标记器,效果更好。YMMV。再说一次,你只需要跳进去,尝试几乎所有的事情。与您的顾问确认您有足够的时间和计算资源。

谢谢您的回答!这对我很有帮助。我还想写我自己的标记器。你知道我在哪里可以找到文本语料库吗?问题是我需要一些英语和德语都可以比较的东西。@yannickhau我真的只使用。使用bzip2-dk enwiki-DATE-pages-articles.xml.bz2提取它。德语也是这样。