Python 使用Gensim处理西班牙语维基百科
我想使用Python 使用Gensim处理西班牙语维基百科,python,wikipedia,gensim,word2vec,Python,Wikipedia,Gensim,Word2vec,我想使用gensim.corpora.wikicorpors处理维基百科。我的最终目标是从中培养一个模型 我能用,但我对西班牙语的重音元音有个问题:á,é,í,ó,ú 我想把它们标准化为a,e,I,o,u 我似乎在gensim中有一个函数,但我想在构建语料库时直接应用它。这能做到吗 以下是一个工作示例: from gensim.corpora import WikiCorpus from gensim.models.word2vec import Word2Vec import logging
gensim.corpora.wikicorpors
处理维基百科。我的最终目标是从中培养一个模型
我能用,但我对西班牙语的重音元音有个问题:á,é,í,ó,ú
我想把它们标准化为a,e,I,o,u
我似乎在gensim中有一个函数,但我想在构建语料库时直接应用它。这能做到吗
以下是一个工作示例:
from gensim.corpora import WikiCorpus
from gensim.models.word2vec import Word2Vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
level=logging.INFO)
# I would like to include here the normalization
corpus = WikiCorpus('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2', dictionary=False)
max_sentence = -1
def generate_lines():
for index, text in enumerate(corpus.get_texts()):
if index < max_sentence or max_sentence == -1:
yield text
else:
break
model = Word2Vec(size=400, window=5, min_count=5)
model.build_vocab(generate_lines())
model.train(generate_lines(), chunksize=500)
model.save('mymodel')
从gensim.corpora导入维基语料库
从gensim.models.word2vec导入word2vec
导入日志记录
logging.basicConfig(格式='(asctime)s:%(levelname)s:%(消息)s',
级别=logging.INFO)
#我想在这里包括规范化
语料库=维基语料库('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2',dictionary=False)
最大句子=-1
def生成_行():
对于索引,枚举中的文本(corpus.get_text()):
如果索引<最大句子或最大句子==-1:
产出文本
其他:
打破
型号=Word2Vec(尺寸=400,窗口=5,最小计数=5)
model.build_vocab(generate_lines())
model.train(生成_行(),chunksize=500)
model.save('mymodel')
我想你应该做以下几点:
from gensim.utils import deaccent
def generate_lines():
for index, text in enumerate(corpus.get_texts()):
if index < max_sentence or max_sentence == -1:
yield deaccent(text)
else:
break
从gensim.utils导入取消访问
def生成_行():
对于索引,枚举中的文本(corpus.get_text()):
如果索引<最大句子或最大句子==-1:
收益率递减(文本)
其他:
打破
我还将调用调用结果到GeaType LeSe()中,只要你有足够的RAM来存储结果并将它们重用在Simult.BuffdIdCub()和MultMultudio(.P.C.)调用中。