Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/356.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python gensim图书馆的维基语料库在阿拉伯语维基百科转储上有效吗?_Python_Gensim - Fatal编程技术网

Python gensim图书馆的维基语料库在阿拉伯语维基百科转储上有效吗?

Python gensim图书馆的维基语料库在阿拉伯语维基百科转储上有效吗?,python,gensim,Python,Gensim,我在一个阿拉伯语维基百科转储上看到一个使用维基语料库的代码,我知道这个过程需要很长时间才能执行,我还四处搜索了执行时得到的警告,上面说: (用户警告:检测到窗口;将chunkize别名为chunkize\u serial warnings.warn(“检测到的窗口;别名分块到 chunkize(串行) 回答说没关系,没什么大不了的,只是警告而已。 但是等了3天左右,没有任何反应!我开始怀疑它是否真的能在阿拉伯语转储文件上工作,或者我必须在将阿拉伯语转储文件传递给Wikicorpus对象之前进行某

我在一个阿拉伯语维基百科转储上看到一个使用维基语料库的代码,我知道这个过程需要很长时间才能执行,我还四处搜索了执行时得到的警告,上面说:

(用户警告:检测到窗口;将chunkize别名为chunkize\u serial
warnings.warn(“检测到的窗口;别名分块到 chunkize(串行)

回答说没关系,没什么大不了的,只是警告而已。 但是等了3天左右,没有任何反应!我开始怀疑它是否真的能在阿拉伯语转储文件上工作,或者我必须在将阿拉伯语转储文件传递给Wikicorpus对象之前进行某种预处理? 数据大小约为989.6 MB。 我用两个打印命令围绕WikiCorpus代码行,以了解它何时开始执行,何时完成执行,如下所示:

print('start WikiCorpus')
wiki = WikiCorpus(self.in_f)
print('finish WikiCorpus')

其中self.in_f是阿拉伯语维基百科转储,如下所示:(/文件所在的路径/arwiki-20200201-pages-articles.xml.bz2),但在运行期间从未到达第二个print命令。

它应该可以工作,尤其是当阿拉伯语有明确的单词分隔符(如单词之间的空格)时

然而,Windows上的很多事情都比较困难,因为
gensim
&大多数相关的Python数据科学库在其他地方得到了更多的开发/测试/使用,&在多处理方面存在一些Windows特有的奇怪之处。如果你可以选择在另一个操作系统上工作,这会使事情变得更容易

最近有另一个问题描述了
en
dump&
WikiCorpus
中的类似问题–有一些想法需要检查,但不清楚询问者是否解决了这个问题


此外,在Windows中使用依赖Python的代码时,可能特别需要将代码设置为“主”块,如果文件被其他进程重新导入,该块将不会重新运行,并调用特定于Windows的
freeze\u support()
函数。看

谢谢大家!!这对我有用。我的问题正如你在第三点中提到的。我所需要的只是将代码设置在一个“main”块中,由于我缺少这一部分,python再次执行所有代码,并在一个无限循环中进行交互。它甚至可以在不使用freeze_support()语句的情况下工作。