Python 手套词嵌入实现中文本语料库的阅读问题

Python 手套词嵌入实现中文本语料库的阅读问题,python,nlp,word-embedding,Python,Nlp,Word Embedding,我正在尝试使用手套实现训练我的文本语料库,如本链接中所述。我创建了一个由单词组成的文本语料库,用一个空格分隔。文件大小为3.6 GB。我在尝试加载文件时遇到此错误 2017-08-09 12:51:47,848 Fetching vocab.. Traceback (most recent call last): File "Glove_python_bbc.py", line 378, in <module> main(parse_args()) File "Glo

我正在尝试使用手套实现训练我的文本语料库,如本链接中所述。我创建了一个由单词组成的文本语料库,用一个空格分隔。文件大小为3.6 GB。我在尝试加载文件时遇到此错误

2017-08-09 12:51:47,848 Fetching vocab..
Traceback (most recent call last):
  File "Glove_python_bbc.py", line 378, in <module>
    main(parse_args())
  File "Glove_python_bbc.py", line 347, in main
    vocab = get_or_build(arguments.vocab_path, build_vocab, corpus)
  File "Glove_python_bbc.py", line 83, in get_or_build
    obj = msgpack.load(obj_f, use_list=False, encoding='utf-8')
  File "msgpack\_unpacker.pyx", line 164, in msgpack._unpacker.unpack (msgpack/_unpacker.cpp:2622)
  File "msgpack\_unpacker.pyx", line 143, in msgpack._unpacker.unpackb (msgpack/_unpacker.cpp:2143)
msgpack.exceptions.ExtraData: unpack(b) received extra data.
2017-08-09 12:51:47848取音。。
回溯(最近一次呼叫最后一次):
文件“glood_python_bbc.py”,第378行,在
main(parse_args())
文件“glood_python_bbc.py”,第347行,主目录
vocab=get\u或构建(arguments.vocab\u path、build\u vocab、corpus)
文件“glood_python_bbc.py”,第83行,在get_或_build中
obj=msgpack.load(obj\u f,use\u list=False,encoding='utf-8')
msgpack.\u unpacker.unpack(msgpack/\u unpacker.cpp:2622)中第164行的文件“msgpack\\u unpack.pyx”
msgpack.\u unpacker.unpackb(msgpack/\u unpacker.cpp:2143)中第143行的文件“msgpack\\u unpacker.pyx”
msgpack.exceptions.ExtraData:解包(b)收到额外数据。

帮我看一下文件。谢谢你收到了同样的问题!你找到解决办法了吗?@Mikhail_Sam这个问题是因为同时读取了大量文件。