Nlp 在处理多语言数据时，需要遵循哪些数据准备步骤或技术？_Nlp_Word Embedding

Nlp 在处理多语言数据时，需要遵循哪些数据准备步骤或技术？

nlp

Nlp 在处理多语言数据时，需要遵循哪些数据准备步骤或技术？,nlp,word-embedding,Nlp,Word Embedding,我正在研究多语言单词嵌入代码，我需要用英语训练我的数据，并用西班牙语测试。我将使用Facebook上的MUSE库中的单词嵌入。我正在寻找一种方法，以同样的方式预处理我的两个数据。我已经研究了发音恢复来处理重音我很难想出一种方法，我可以小心地删除停止词，标点符号和天气或不我应该柠檬化我如何统一地预处理这两种语言，以创建一个词汇表，供以后在MUSE库中使用。嗨，Chandana，我希望你做得很好。我将研究如何使用spaCy图书馆。创建该图书馆的人有一段youtube视频，其中他讨论了NLP在其

我正在研究多语言单词嵌入代码，我需要用英语训练我的数据，并用西班牙语测试。我将使用Facebook上的MUSE库中的单词嵌入。我正在寻找一种方法，以同样的方式预处理我的两个数据。我已经研究了发音恢复来处理重音

我很难想出一种方法，我可以小心地删除停止词，标点符号和天气或不我应该柠檬化

我如何统一地预处理这两种语言，以创建一个词汇表，供以后在MUSE库中使用。

嗨，Chandana，我希望你做得很好。我将研究如何使用spaCy图书馆。创建该图书馆的人有一段youtube视频，其中他讨论了NLP在其他语言中的实现。在下面，您将找到将lemmatize和删除stopwords的代码。就标点而言，您始终可以将特定字符（如重音符号）设置为忽略。就我个人而言，我使用免费开源的KNIME进行预处理。您必须安装nlp扩展，但很好的是，它们对不同语言有不同的扩展，您可以在此处安装：停止字过滤器（自2.9版起）和Snowball词干分析器节点可以应用于西班牙语。确保在节点的对话框中选择正确的语言。不幸的是，到目前为止，西班牙语还没有词性标记节点

#创建函数对stem进行元素化，并进行预处理
#变美，变美，变美为茎美
def lemmatize_词干分析（文本）：
stemmer=PorterStemmer（）
返回stemmer.stem（WordNetLemmatizer（）.lemmatize（text，pos='v'））
#将文档解析为单个单词，忽略长度小于3个字母的单词
#停止语：他，她，他们，因为，那里，等等，因为“他们”不是一个话题。
#然后将tolken添加到一个列表中
def预处理（文本）：
结果=[]
对于gensim.utils.simple_预处理（文本）中的令牌：
newStopWords=['your\u stopword1'、'your\u stopWord2']
如果令牌不在gensim.parsing.preprocessing.STOPWORDS中，且令牌不在newStopWords和len（令牌）>3中：
nltk.bigrams（令牌）
result.append（lemmatize_词干生成（标记））
returnresult

只是对词干的一般性评论：我一般不建议盲目相信Porter在其他语言中表现良好，因为它可能会给你一种错误的安全感，你也会得到好的结果。我个人不知道它在西班牙语中的表现如何。NLTK还有一些很棒的特定于语言的词干分析器，在这里性能可能更好。