Python 手套词嵌入实现中文本语料库的阅读问题_Python_Nlp_Word Embedding

Python 手套词嵌入实现中文本语料库的阅读问题

python nlp

Python 手套词嵌入实现中文本语料库的阅读问题,python,nlp,word-embedding,Python,Nlp,Word Embedding,我正在尝试使用手套实现训练我的文本语料库，如本链接中所述。我创建了一个由单词组成的文本语料库，用一个空格分隔。文件大小为3.6 GB。我在尝试加载文件时遇到此错误 2017-08-09 12:51:47,848 Fetching vocab.. Traceback (most recent call last): File "Glove_python_bbc.py", line 378, in <module> main(parse_args()) File "Glo

我正在尝试使用手套实现训练我的文本语料库，如本链接中所述。我创建了一个由单词组成的文本语料库，用一个空格分隔。文件大小为3.6 GB。我在尝试加载文件时遇到此错误

2017-08-09 12:51:47,848 Fetching vocab..
Traceback (most recent call last):
  File "Glove_python_bbc.py", line 378, in <module>
    main(parse_args())
  File "Glove_python_bbc.py", line 347, in main
    vocab = get_or_build(arguments.vocab_path, build_vocab, corpus)
  File "Glove_python_bbc.py", line 83, in get_or_build
    obj = msgpack.load(obj_f, use_list=False, encoding='utf-8')
  File "msgpack\_unpacker.pyx", line 164, in msgpack._unpacker.unpack (msgpack/_unpacker.cpp:2622)
  File "msgpack\_unpacker.pyx", line 143, in msgpack._unpacker.unpackb (msgpack/_unpacker.cpp:2143)
msgpack.exceptions.ExtraData: unpack(b) received extra data.

2017-08-09 12:51:47848取音。。
回溯（最近一次呼叫最后一次）：
文件“glood_python_bbc.py”，第378行，在
main（parse_args（））
文件“glood_python_bbc.py”，第347行，主目录
vocab=get\u或构建（arguments.vocab\u path、build\u vocab、corpus）
文件“glood_python_bbc.py”，第83行，在get_或_build中
obj=msgpack.load（obj\u f，use\u list=False，encoding='utf-8'）
msgpack.\u unpacker.unpack（msgpack/\u unpacker.cpp:2622）中第164行的文件“msgpack\\u unpack.pyx”
msgpack.\u unpacker.unpackb（msgpack/\u unpacker.cpp:2143）中第143行的文件“msgpack\\u unpacker.pyx”
msgpack.exceptions.ExtraData：解包（b）收到额外数据。

帮我看一下文件。谢谢你收到了同样的问题！你找到解决办法了吗？@Mikhail_Sam这个问题是因为同时读取了大量文件。