Nlp 基于不同嵌入算法的语料库预处理_Nlp_Word Embedding

Nlp 基于不同嵌入算法的语料库预处理

nlp

Nlp 基于不同嵌入算法的语料库预处理,nlp,word-embedding,Nlp,Word Embedding,对于我的学士学位，我需要在同一个语料库上训练不同的单词嵌入算法来测试它们。我希望找到预处理步骤，但不确定使用哪些步骤，哪些步骤可能不太有用我已经寻找了一些研究，但也想问问是否有人有这方面的经验我的目标是在同一语料库上训练Word2Vec、FastText和手套嵌入。现在不太确定是哪一个，但我想到了维基百科或类似的东西我认为：词性标注使用正则表达式或类似表达式删除非字母字符停止字删除柠檬化流行语这些都是合乎逻辑的选择但是我听说删除stopword可能有点棘手，因为有些嵌入

对于我的学士学位，我需要在同一个语料库上训练不同的单词嵌入算法来测试它们。我希望找到预处理步骤，但不确定使用哪些步骤，哪些步骤可能不太有用

我已经寻找了一些研究，但也想问问是否有人有这方面的经验

我的目标是在同一语料库上训练Word2Vec、FastText和手套嵌入。现在不太确定是哪一个，但我想到了维基百科或类似的东西

我认为：

词性标注
使用正则表达式或类似表达式删除非字母字符
停止字删除
柠檬化
流行语

这些都是合乎逻辑的选择

但是我听说删除stopword可能有点棘手，因为有些嵌入仍然可能包含stopwords，因为自动删除stopword可能不适合任何模型/语料库

此外，我还没有决定是选择spacy还是nltk作为库，spacy更强大，但nltk主要用于我正在撰写的文章中。

预处理类似于超参数优化或神经架构搜索。对于“我应该使用哪一个”没有一个理论上的答案。该领域的应用部分（NLP）远远领先于理论。您只需运行不同的组合，直到找到最有效的组合（根据您选择的度量）

是的，维基百科很棒，几乎每个人都使用它（加上其他数据集）。我尝试过spacy，它很强大，但我认为我犯了一个错误，我最终编写了自己的标记器，效果更好。YMMV。再说一次，你只需要跳进去，尝试几乎所有的事情。与您的顾问确认您有足够的时间和计算资源。

谢谢您的回答！这对我很有帮助。我还想写我自己的标记器。你知道我在哪里可以找到文本语料库吗？问题是我需要一些英语和德语都可以比较的东西。@yannickhau我真的只使用。使用bzip2-dk enwiki-DATE-pages-articles.xml.bz2提取它。德语也是这样。