Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ajax/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用Gensim处理西班牙语维基百科_Python_Wikipedia_Gensim_Word2vec - Fatal编程技术网

Python 使用Gensim处理西班牙语维基百科

Python 使用Gensim处理西班牙语维基百科,python,wikipedia,gensim,word2vec,Python,Wikipedia,Gensim,Word2vec,我想使用gensim.corpora.wikicorpors处理维基百科。我的最终目标是从中培养一个模型 我能用,但我对西班牙语的重音元音有个问题:á,é,í,ó,ú 我想把它们标准化为a,e,I,o,u 我似乎在gensim中有一个函数,但我想在构建语料库时直接应用它。这能做到吗 以下是一个工作示例: from gensim.corpora import WikiCorpus from gensim.models.word2vec import Word2Vec import logging

我想使用
gensim.corpora.wikicorpors
处理维基百科。我的最终目标是从中培养一个模型

我能用,但我对西班牙语的重音元音有个问题:á,é,í,ó,ú

我想把它们标准化为a,e,I,o,u

我似乎在gensim中有一个函数,但我想在构建语料库时直接应用它。这能做到吗

以下是一个工作示例:

from gensim.corpora import WikiCorpus
from gensim.models.word2vec import  Word2Vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                level=logging.INFO)

# I would like to include here the normalization
corpus = WikiCorpus('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2', dictionary=False)


max_sentence = -1


def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence == -1:
            yield text
        else:
            break

model = Word2Vec(size=400, window=5, min_count=5)
model.build_vocab(generate_lines())
model.train(generate_lines(), chunksize=500)

model.save('mymodel')
从gensim.corpora导入维基语料库
从gensim.models.word2vec导入word2vec
导入日志记录
logging.basicConfig(格式='(asctime)s:%(levelname)s:%(消息)s',
级别=logging.INFO)
#我想在这里包括规范化
语料库=维基语料库('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2',dictionary=False)
最大句子=-1
def生成_行():
对于索引,枚举中的文本(corpus.get_text()):
如果索引<最大句子或最大句子==-1:
产出文本
其他:
打破
型号=Word2Vec(尺寸=400,窗口=5,最小计数=5)
model.build_vocab(generate_lines())
model.train(生成_行(),chunksize=500)
model.save('mymodel')

我想你应该做以下几点:

from gensim.utils import deaccent

def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence == -1:
            yield deaccent(text)
        else:
            break
从gensim.utils导入取消访问
def生成_行():
对于索引,枚举中的文本(corpus.get_text()):
如果索引<最大句子或最大句子==-1:
收益率递减(文本)
其他:
打破

我还将调用调用结果到GeaType LeSe()中,只要你有足够的RAM来存储结果并将它们重用在Simult.BuffdIdCub()和MultMultudio(.P.C.)调用中。