Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/332.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python &引用;“克隆”;NLTK中的语料库?_Python_Nlp_Nltk_Corpus - Fatal编程技术网

Python &引用;“克隆”;NLTK中的语料库?

Python &引用;“克隆”;NLTK中的语料库?,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档,它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在,我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库(即,我必须不断地交换文件)。我有没有办法克隆电影评论语料库 谢谢 Alex为什么不通过复制nltk.corpus中movie\u reviews的定义来定义一个新的语料库呢?您可以使用新目录执行此操作,然后复制目录结构并替换文件。使用Categ

我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档,它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在,我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库(即,我必须不断地交换文件)。我有没有办法克隆电影评论语料库

谢谢
Alex

为什么不通过复制
nltk.corpus
movie\u reviews
的定义来定义一个新的语料库呢?您可以使用新目录执行此操作,然后复制目录结构并替换文件。

使用
CategorizedPlaintextCorpusReader
类读取电影评论。直接使用它来加载你的语料库。以下内容适用于电影语料库的精确副本:

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')
无论
cat_模式中的哪种马赫数
都是类别:在这种情况下,
neg
pos
。如果语料库具有不同的类别(例如,电影类型而非正面/负面评价),请更改目录结构并调整
cat\u模式
参数以匹配

对于具有不同结构的分类语料库,nltk提供了丰富的方法来指定类别;阅读
CategorizedPlaintextCorpusReader
的文档