Python 使用Gensim处理西班牙语维基百科_Python_Wikipedia_Gensim_Word2vec

Python 使用Gensim处理西班牙语维基百科

python

Python 使用Gensim处理西班牙语维基百科,python,wikipedia,gensim,word2vec,Python,Wikipedia,Gensim,Word2vec,我想使用gensim.corpora.wikicorpors处理维基百科。我的最终目标是从中培养一个模型我能用，但我对西班牙语的重音元音有个问题：á，é，í，ó，ú 我想把它们标准化为a，e，I，o，u 我似乎在gensim中有一个函数，但我想在构建语料库时直接应用它。这能做到吗以下是一个工作示例： from gensim.corpora import WikiCorpus from gensim.models.word2vec import Word2Vec import logging

我想使用

gensim.corpora.wikicorpors

处理维基百科。我的最终目标是从中培养一个模型

我能用，但我对西班牙语的重音元音有个问题：á，é，í，ó，ú

我想把它们标准化为a，e，I，o，u

我似乎在gensim中有一个函数，但我想在构建语料库时直接应用它。这能做到吗

以下是一个工作示例：

from gensim.corpora import WikiCorpus
from gensim.models.word2vec import  Word2Vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                level=logging.INFO)

# I would like to include here the normalization
corpus = WikiCorpus('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2', dictionary=False)


max_sentence = -1


def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence == -1:
            yield text
        else:
            break

model = Word2Vec(size=400, window=5, min_count=5)
model.build_vocab(generate_lines())
model.train(generate_lines(), chunksize=500)

model.save('mymodel')

从gensim.corpora导入维基语料库
从gensim.models.word2vec导入word2vec
导入日志记录
logging.basicConfig（格式='（asctime）s:%（levelname）s:%（消息）s'，
级别=logging.INFO）
#我想在这里包括规范化
语料库=维基语料库（'/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2'，dictionary=False）
最大句子=-1
def生成_行（）：
对于索引，枚举中的文本（corpus.get_text（））：
如果索引<最大句子或最大句子==-1：
产出文本
其他：
打破
型号=Word2Vec（尺寸=400，窗口=5，最小计数=5）
model.build_vocab（generate_lines（））
model.train（生成_行（），chunksize=500）
model.save（'mymodel'）

我想你应该做以下几点：

from gensim.utils import deaccent

def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence == -1:
            yield deaccent(text)
        else:
            break

从gensim.utils导入取消访问
def生成_行（）：
对于索引，枚举中的文本（corpus.get_text（））：
如果索引<最大句子或最大句子==-1：
收益率递减（文本）
其他：
打破

我还将调用调用结果到GeaType LeSe（）中，只要你有足够的RAM来存储结果并将它们重用在Simult.BuffdIdCub（）和MultMultudio（.P.C.）调用中。