Nlp 在非英语语言中实现Word2Vec？_Nlp_Nltk_Wordnet_Stemming_Lemmatization

Nlp 在非英语语言中实现Word2Vec？

nlp

Nlp 在非英语语言中实现Word2Vec？,nlp,nltk,wordnet,stemming,lemmatization,Nlp,Nltk,Wordnet,Stemming,Lemmatization,有没有可能在不基于英语字母的语言（如乌尔都语、泰米尔语等）中实现Word2Vec模型？如果有的话，有人能给我推荐一条路吗是的，我认为这应该是可能的，前提是您的语言有一个标记器（即分词器），如果您有较小的数据，并且希望用一些基本形式表示替换屈折词形式，则可能有一个lemmatizer或词干分析器下面是一个使用Python中的gensim培训模型的基本示例：来自gensim导入模型的培训_corpus=“corpus.txt” 以开放式（训练语料库，'r'）作为f：纯文本=f.read（）

有没有可能在不基于英语字母的语言（如乌尔都语、泰米尔语等）中实现Word2Vec模型？如果有的话，有人能给我推荐一条路吗

是的，我认为这应该是可能的，前提是您的语言有一个标记器（即分词器），如果您有较小的数据，并且希望用一些基本形式表示替换屈折词形式，则可能有一个lemmatizer或词干分析器

下面是一个使用Python中的gensim培训模型的基本示例：

来自gensim导入模型的


培训_corpus=“corpus.txt”
以开放式（训练语料库，'r'）作为f：
纯文本=f.read（）
句子=纯文本。拆分（“\n”）#假设每行一句话
标记化=[]
对于句子中的句子：
#基于空格的分词，替换为更好的标记器
标记=句子.strip（）.lower（）.split（“”）
标记化。追加（标记）
#培训您的模型，有关参数，请参阅gensim文档
model=models.Word2Vec（标记化，最小计数=3，大小=50）

试一试。只需预处理数据并将其转换为数字格式，创建一个字典（word，id）。然后将编号文件传递给word2vec。你会准备好去的。就在查询时间，使用字典并将其转换为数字版本，然后再将其传递给经过培训的模型！