Python gensim维基语料库的问题-将chunkize别名为chunkize_serial;(uuu mp_umain_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

Python gensim维基语料库的问题-将chunkize别名为chunkize_serial;(uuu mp_umain_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu,python,python-3.x,windows,nlp,gensim,Python,Python 3.x,Windows,Nlp,Gensim,我对Python和一般的编码都很陌生,所以我似乎遇到了一个问题 我正在尝试运行此代码(归功于Matthew Mayo,可以找到整个代码): 我尝试过卸载所有必需的软件包(numpy、smart_open)以及gensim本身(在活动的conda环境中),但没有任何改变。 另外,主和多处理之间有什么区别 --规格:win64,py 3.7.3 编辑:在调试级别运行日志记录后,记录文件 2020-02-16 22:49:00,061:start: :13396 2020-02-16 22:49:0

我对Python和一般的编码都很陌生,所以我似乎遇到了一个问题

我正在尝试运行此代码(归功于Matthew Mayo,可以找到整个代码):

我尝试过卸载所有必需的软件包(numpy、smart_open)以及gensim本身(在活动的conda环境中),但没有任何改变。 另外,和多处理之间有什么区别

--规格:win64,py 3.7.3

编辑:在调试级别运行日志记录后,记录文件

2020-02-16 22:49:00,061:start: :13396 
2020-02-16 22:49:00,061:0 :13396 
2020-02-16 22:49:00,061:1 :13396 
2020-02-16 22:49:01,493:start: :22356 
2020-02-16 22:49:01,493:3 :22356 
2020-02-16 22:49:01,496:start: :25332 
2020-02-16 22:49:01,497:3 :25332 
2020-02-16 22:49:01,530:start: :7120 
2020-02-16 22:49:01,530:3 :7120 
2020-02-16 22:49:01,541:adding document #0 to Dictionary(0 unique tokens: []):13396
(另外,在
else
分支中添加了“3”)


Windows操作系统可能是一个促成因素;许多与多处理相关的东西在那里的工作方式不同,而
gensim
在其他地方得到了更多的使用和测试。因此,如果可以选择在另一个操作系统下测试代码,或者完全使用另一个操作系统,那么这个问题和其他潜在的未来问题可能变得无关紧要

要检查和尝试的其他事项:

  • 是否创建了
    wiki_en.txt
    文件,或收到任何输出

  • 如果您提供
    processs=1
    作为
    WikiCorpus
    的参数,以便只使用一个工作进程,这是否有帮助

  • 如果您测试了一些根本不使用
    WikiCorpus
    的代码,通过尝试读取原始wiki转储文件,使用
    BZ2File
    解压,以与相同的样式,这是否有效,或者也显示出类似的问题?(如果有类似的问题,那么它是一个有用的较小触发案例,它将注意力集中在
    BZ2File
    在Windows上的操作上。)

  • 您是否偶然使用了,如果是,您是否可以尝试非多流的替代方案&看看相同的问题是否仍然存在(如果这是Windows上的
    BZ2File
    &multistream的问题)


    • Windows操作系统可能是一个促成因素;许多与多处理相关的东西在那里的工作方式不同,而
      gensim
      在其他地方得到了更多的使用和测试。因此,如果可以选择在另一个操作系统下测试代码,或者完全使用另一个操作系统,那么这个问题和其他潜在的未来问题可能变得无关紧要

      要检查和尝试的其他事项:

      • 是否创建了
        wiki_en.txt
        文件,或收到任何输出

      • 如果您提供
        processs=1
        作为
        WikiCorpus
        的参数,以便只使用一个工作进程,这是否有帮助

      • 如果您测试了一些根本不使用
        WikiCorpus
        的代码,通过尝试读取原始wiki转储文件,使用
        BZ2File
        解压,以与相同的样式,这是否有效,或者也显示出类似的问题?(如果有类似的问题,那么它是一个有用的较小触发案例,它将注意力集中在
        BZ2File
        在Windows上的操作上。)

      • 您是否偶然使用了,如果是,您是否可以尝试非多流的替代方案&看看相同的问题是否仍然存在(如果这是Windows上的
        BZ2File
        &multistream的问题)


      我不确定
      chunkize
      警告是否与问题有关。如果在调试级别运行日志记录,会有更多的进度指示吗?您执行的确切命令行是什么?(我很惊讶有一个
      \uuu mp\u main\uuu
      ,这并不典型。)@gojomo所以,我试过这么做(在最终打印(名称)之前还添加了3个)它说出了这个:2020-02-16 22:49:00061:start::13396 2020-02-16 22:49:00061:0:13396 2020-02-16 22:49:00061:1:13396 2020-02-16 22:49:01493:start::22356 2020-02-16 22:49:01493:22356 2020-02-16 22:49:01496:start::25332 2020-02-16 22:49:01497:3:25332 2020-02-02-16-22:49:01530:start::712022:49:01541:将文档#0添加到字典(0个唯一标记:[]):13396我使用了常规Windows命令提示符(但也尝试了Anaconda提示符)。无法在注释中真正解释该输出;你能用更新的代码/输出和格式编辑你的问题吗?安,你到底是用什么命令行来获得输出的?@gojomo当然!很抱歉-刚刚更新;我使用了
      python.py enwiki-latest-pages-articles.xml.bz2 wiki_en.txt
      命令。我不确定
      chunkize
      警告是否与问题有关。如果在调试级别运行日志记录,会有更多的进度指示吗?您执行的确切命令行是什么?(我很惊讶有一个
      \uuu mp\u main\uuu
      ,这并不典型。)@gojomo所以,我试过这么做(在最终打印(名称)之前还添加了3个)它说出了这个:2020-02-16 22:49:00061:start::13396 2020-02-16 22:49:00061:0:13396 2020-02-16 22:49:00061:1:13396 2020-02-16 22:49:01493:start::22356 2020-02-16 22:49:01493:22356 2020-02-16 22:49:01496:start::25332 2020-02-16 22:49:01497:3:25332 2020-02-02-16-22:49:01530:start::712022:49:01541:将文档#0添加到字典(0个唯一标记:[]):13396我使用了常规Windows命令提示符(但也尝试了Anaconda提示符)。无法在注释中真正解释该输出;你能用更新的代码/输出和格式编辑你的问题吗?安,你到底是用什么命令行来获得输出的?@gojomo当然!很抱歉-刚刚更新;我使用了
      python.py-enwiki-latest-pages-articles.xml.bz2 wiki_en.txt
      命令。
      start
      0
      1
      C:\Users\name\Anaconda3\lib\site-packages\gensim\utils.py:1254: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
      start
      __mp_main__
      start
      __mp_main__
      start
      __mp_main__
      
      2020-02-16 22:49:00,061:start: :13396 
      2020-02-16 22:49:00,061:0 :13396 
      2020-02-16 22:49:00,061:1 :13396 
      2020-02-16 22:49:01,493:start: :22356 
      2020-02-16 22:49:01,493:3 :22356 
      2020-02-16 22:49:01,496:start: :25332 
      2020-02-16 22:49:01,497:3 :25332 
      2020-02-16 22:49:01,530:start: :7120 
      2020-02-16 22:49:01,530:3 :7120 
      2020-02-16 22:49:01,541:adding document #0 to Dictionary(0 unique tokens: []):13396
      
      else:
          logging.debug('3 ')