Python gensim维基语料库的问题-将chunkize别名为chunkize_serial;(uuu mp_umain_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu
我对Python和一般的编码都很陌生,所以我似乎遇到了一个问题 我正在尝试运行此代码(归功于Matthew Mayo,可以找到整个代码): 我尝试过卸载所有必需的软件包(numpy、smart_open)以及gensim本身(在活动的conda环境中),但没有任何改变。 另外,主和多处理之间有什么区别 --规格:win64,py 3.7.3 编辑:在调试级别运行日志记录后,记录文件Python gensim维基语料库的问题-将chunkize别名为chunkize_serial;(uuu mp_umain_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu,python,python-3.x,windows,nlp,gensim,Python,Python 3.x,Windows,Nlp,Gensim,我对Python和一般的编码都很陌生,所以我似乎遇到了一个问题 我正在尝试运行此代码(归功于Matthew Mayo,可以找到整个代码): 我尝试过卸载所有必需的软件包(numpy、smart_open)以及gensim本身(在活动的conda环境中),但没有任何改变。 另外,主和多处理之间有什么区别 --规格:win64,py 3.7.3 编辑:在调试级别运行日志记录后,记录文件 2020-02-16 22:49:00,061:start: :13396 2020-02-16 22:49:0
2020-02-16 22:49:00,061:start: :13396
2020-02-16 22:49:00,061:0 :13396
2020-02-16 22:49:00,061:1 :13396
2020-02-16 22:49:01,493:start: :22356
2020-02-16 22:49:01,493:3 :22356
2020-02-16 22:49:01,496:start: :25332
2020-02-16 22:49:01,497:3 :25332
2020-02-16 22:49:01,530:start: :7120
2020-02-16 22:49:01,530:3 :7120
2020-02-16 22:49:01,541:adding document #0 to Dictionary(0 unique tokens: []):13396
(另外,在else
分支中添加了“3”)
Windows操作系统可能是一个促成因素;许多与多处理相关的东西在那里的工作方式不同,而
gensim
在其他地方得到了更多的使用和测试。因此,如果可以选择在另一个操作系统下测试代码,或者完全使用另一个操作系统,那么这个问题和其他潜在的未来问题可能变得无关紧要
要检查和尝试的其他事项:
- 是否创建了
文件,或收到任何输出wiki_en.txt
- 如果您提供
作为processs=1
的参数,以便只使用一个工作进程,这是否有帮助WikiCorpus
- 如果您测试了一些根本不使用
的代码,通过尝试读取原始wiki转储文件,使用WikiCorpus
解压,以与相同的样式,这是否有效,或者也显示出类似的问题?(如果有类似的问题,那么它是一个有用的较小触发案例,它将注意力集中在BZ2File
在Windows上的操作上。)BZ2File
- 您是否偶然使用了,如果是,您是否可以尝试非多流的替代方案&看看相同的问题是否仍然存在(如果这是Windows上的
&multistream的问题)BZ2File
- Windows操作系统可能是一个促成因素;许多与多处理相关的东西在那里的工作方式不同,而
gensim
在其他地方得到了更多的使用和测试。因此,如果可以选择在另一个操作系统下测试代码,或者完全使用另一个操作系统,那么这个问题和其他潜在的未来问题可能变得无关紧要
要检查和尝试的其他事项:
- 是否创建了
文件,或收到任何输出wiki_en.txt
- 如果您提供
作为processs=1
的参数,以便只使用一个工作进程,这是否有帮助WikiCorpus
- 如果您测试了一些根本不使用
的代码,通过尝试读取原始wiki转储文件,使用WikiCorpus
解压,以与相同的样式,这是否有效,或者也显示出类似的问题?(如果有类似的问题,那么它是一个有用的较小触发案例,它将注意力集中在BZ2File
在Windows上的操作上。)BZ2File
- 您是否偶然使用了,如果是,您是否可以尝试非多流的替代方案&看看相同的问题是否仍然存在(如果这是Windows上的
&multistream的问题)BZ2File
chunkize
警告是否与问题有关。如果在调试级别运行日志记录,会有更多的进度指示吗?您执行的确切命令行是什么?(我很惊讶有一个\uuu mp\u main\uuu
,这并不典型。)@gojomo所以,我试过这么做(在最终打印(名称)之前还添加了3个)它说出了这个:2020-02-16 22:49:00061:start::13396 2020-02-16 22:49:00061:0:13396 2020-02-16 22:49:00061:1:13396 2020-02-16 22:49:01493:start::22356 2020-02-16 22:49:01493:22356 2020-02-16 22:49:01496:start::25332 2020-02-16 22:49:01497:3:25332 2020-02-02-16-22:49:01530:start::712022:49:01541:将文档#0添加到字典(0个唯一标记:[]):13396我使用了常规Windows命令提示符(但也尝试了Anaconda提示符)。无法在注释中真正解释该输出;你能用更新的代码/输出和格式编辑你的问题吗?安,你到底是用什么命令行来获得输出的?@gojomo当然!很抱歉-刚刚更新;我使用了python.py enwiki-latest-pages-articles.xml.bz2 wiki_en.txt
命令。我不确定chunkize
警告是否与问题有关。如果在调试级别运行日志记录,会有更多的进度指示吗?您执行的确切命令行是什么?(我很惊讶有一个\uuu mp\u main\uuu
,这并不典型。)@gojomo所以,我试过这么做(在最终打印(名称)之前还添加了3个)它说出了这个:2020-02-16 22:49:00061:start::13396 2020-02-16 22:49:00061:0:13396 2020-02-16 22:49:00061:1:13396 2020-02-16 22:49:01493:start::22356 2020-02-16 22:49:01493:22356 2020-02-16 22:49:01496:start::25332 2020-02-16 22:49:01497:3:25332 2020-02-02-16-22:49:01530:start::712022:49:01541:将文档#0添加到字典(0个唯一标记:[]):13396我使用了常规Windows命令提示符(但也尝试了Anaconda提示符)。无法在注释中真正解释该输出;你能用更新的代码/输出和格式编辑你的问题吗?安,你到底是用什么命令行来获得输出的?@gojomo当然!很抱歉-刚刚更新;我使用了python.py-enwiki-latest-pages-articles.xml.bz2 wiki_en.txt
命令。
start
0
1
C:\Users\name\Anaconda3\lib\site-packages\gensim\utils.py:1254: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
start
__mp_main__
start
__mp_main__
start
__mp_main__
2020-02-16 22:49:00,061:start: :13396
2020-02-16 22:49:00,061:0 :13396
2020-02-16 22:49:00,061:1 :13396
2020-02-16 22:49:01,493:start: :22356
2020-02-16 22:49:01,493:3 :22356
2020-02-16 22:49:01,496:start: :25332
2020-02-16 22:49:01,497:3 :25332
2020-02-16 22:49:01,530:start: :7120
2020-02-16 22:49:01,530:3 :7120
2020-02-16 22:49:01,541:adding document #0 to Dictionary(0 unique tokens: []):13396
else:
logging.debug('3 ')