Python &引用；“克隆”；NLTK中的语料库？_Python_Nlp_Nltk_Corpus

Python &引用；“克隆”；NLTK中的语料库？

python nlp

Python &引用；“克隆”；NLTK中的语料库？,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档，它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在，我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库（即，我必须不断地交换文件）。我有没有办法克隆电影评论语料库谢谢 Alex为什么不通过复制nltk.corpus中movie\u reviews的定义来定义一个新的语料库呢？您可以使用新目录执行此操作，然后复制目录结构并替换文件。使用Categ

我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档，它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在，我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库（即，我必须不断地交换文件）。我有没有办法克隆电影评论语料库

谢谢

Alex

为什么不通过复制

nltk.corpus

中

movie\u reviews

的定义来定义一个新的语料库呢？您可以使用新目录执行此操作，然后复制目录结构并替换文件。

使用

CategorizedPlaintextCorpusReader

类读取电影评论。直接使用它来加载你的语料库。以下内容适用于电影语料库的精确副本：

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')

无论

cat_模式中的哪种马赫数

都是类别：在这种情况下，

neg

和

pos

。如果语料库具有不同的类别（例如，电影类型而非正面/负面评价），请更改目录结构并调整

cat\u模式

参数以匹配

对于具有不同结构的分类语料库，nltk提供了丰富的方法来指定类别；阅读

CategorizedPlaintextCorpusReader

的文档