Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 在处理多语言数据时,需要遵循哪些数据准备步骤或技术?_Nlp_Word Embedding - Fatal编程技术网

Nlp 在处理多语言数据时,需要遵循哪些数据准备步骤或技术?

Nlp 在处理多语言数据时,需要遵循哪些数据准备步骤或技术?,nlp,word-embedding,Nlp,Word Embedding,我正在研究多语言单词嵌入代码,我需要用英语训练我的数据,并用西班牙语测试。我将使用Facebook上的MUSE库中的单词嵌入。 我正在寻找一种方法,以同样的方式预处理我的两个数据。我已经研究了发音恢复来处理重音 我很难想出一种方法,我可以小心地删除停止词,标点符号和天气或不我应该柠檬化 我如何统一地预处理这两种语言,以创建一个词汇表,供以后在MUSE库中使用。嗨,Chandana,我希望你做得很好。我将研究如何使用spaCy图书馆。创建该图书馆的人有一段youtube视频,其中他讨论了NLP在其

我正在研究多语言单词嵌入代码,我需要用英语训练我的数据,并用西班牙语测试。我将使用Facebook上的MUSE库中的单词嵌入。 我正在寻找一种方法,以同样的方式预处理我的两个数据。我已经研究了发音恢复来处理重音

我很难想出一种方法,我可以小心地删除停止词,标点符号和天气或不我应该柠檬化


我如何统一地预处理这两种语言,以创建一个词汇表,供以后在MUSE库中使用。

嗨,Chandana,我希望你做得很好。我将研究如何使用spaCy图书馆。创建该图书馆的人有一段youtube视频,其中他讨论了NLP在其他语言中的实现。在下面,您将找到将lemmatize和删除stopwords的代码。就标点而言,您始终可以将特定字符(如重音符号)设置为忽略。就我个人而言,我使用免费开源的KNIME进行预处理。您必须安装nlp扩展,但很好的是,它们对不同语言有不同的扩展,您可以在此处安装:停止字过滤器(自2.9版起)和Snowball词干分析器节点可以应用于西班牙语。确保在节点的对话框中选择正确的语言。不幸的是,到目前为止,西班牙语还没有词性标记节点

#创建函数对stem进行元素化,并进行预处理
#变美,变美,变美为茎美
def lemmatize_词干分析(文本):
stemmer=PorterStemmer()
返回stemmer.stem(WordNetLemmatizer().lemmatize(text,pos='v'))
#将文档解析为单个单词,忽略长度小于3个字母的单词
#停止语:他,她,他们,因为,那里,等等,因为“他们”不是一个话题。
#然后将tolken添加到一个列表中
def预处理(文本):
结果=[]
对于gensim.utils.simple_预处理(文本)中的令牌:
newStopWords=['your\u stopword1'、'your\u stopWord2']
如果令牌不在gensim.parsing.preprocessing.STOPWORDS中,且令牌不在newStopWords和len(令牌)>3中:
nltk.bigrams(令牌)
result.append(lemmatize_词干生成(标记))

returnresult
只是对词干的一般性评论:我一般不建议盲目相信Porter在其他语言中表现良好,因为它可能会给你一种错误的安全感,你也会得到好的结果。我个人不知道它在西班牙语中的表现如何。NLTK还有一些很棒的特定于语言的词干分析器,在这里性能可能更好。