Nlp 在非英语语言中实现Word2Vec?

Nlp 在非英语语言中实现Word2Vec?,nlp,nltk,wordnet,stemming,lemmatization,Nlp,Nltk,Wordnet,Stemming,Lemmatization,有没有可能在不基于英语字母的语言(如乌尔都语、泰米尔语等)中实现Word2Vec模型?如果有的话,有人能给我推荐一条路吗 是的,我认为这应该是可能的,前提是您的语言有一个标记器(即分词器),如果您有较小的数据,并且希望用一些基本形式表示替换屈折词形式,则可能有一个lemmatizer或词干分析器 下面是一个使用Python中的gensim培训模型的基本示例: 来自gensim导入模型的 培训_corpus=“corpus.txt” 以开放式(训练语料库,'r')作为f: 纯文本=f.read()

有没有可能在不基于英语字母的语言(如乌尔都语、泰米尔语等)中实现Word2Vec模型?如果有的话,有人能给我推荐一条路吗

是的,我认为这应该是可能的,前提是您的语言有一个标记器(即分词器),如果您有较小的数据,并且希望用一些基本形式表示替换屈折词形式,则可能有一个lemmatizer或词干分析器

下面是一个使用Python中的gensim培训模型的基本示例:

来自gensim导入模型的

培训_corpus=“corpus.txt”
以开放式(训练语料库,'r')作为f:
纯文本=f.read()
句子=纯文本。拆分(“\n”)#假设每行一句话
标记化=[]
对于句子中的句子:
#基于空格的分词,替换为更好的标记器
标记=句子.strip().lower().split(“”)
标记化。追加(标记)
#培训您的模型,有关参数,请参阅gensim文档
model=models.Word2Vec(标记化,最小计数=3,大小=50)

试一试。只需预处理数据并将其转换为数字格式,创建一个字典(word,id)。然后将编号文件传递给word2vec。你会准备好去的。就在查询时间,使用字典并将其转换为数字版本,然后再将其传递给经过培训的模型!