Python &引用;“克隆”;NLTK中的语料库?
我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档,它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在,我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库(即,我必须不断地交换文件)。我有没有办法克隆电影评论语料库 谢谢Python &引用;“克隆”;NLTK中的语料库?,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试用NLTK创建自己的语料库。我已经阅读了一些关于这个的文档,它看起来相当复杂。。。我只想用我自己的文字“克隆”电影评论语料库。现在,我知道我可以将move reviews语料库中的文件更改为我自己的。。。但这限制了我一次只能处理一个这样的语料库(即,我必须不断地交换文件)。我有没有办法克隆电影评论语料库 谢谢 Alex为什么不通过复制nltk.corpus中movie\u reviews的定义来定义一个新的语料库呢?您可以使用新目录执行此操作,然后复制目录结构并替换文件。使用Categ
Alex为什么不通过复制
nltk.corpus
中movie\u reviews
的定义来定义一个新的语料库呢?您可以使用新目录执行此操作,然后复制目录结构并替换文件。使用CategorizedPlaintextCorpusReader
类读取电影评论。直接使用它来加载你的语料库。以下内容适用于电影语料库的精确副本:
mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
cat_pattern=r'(neg|pos)/.*')
无论cat_模式中的哪种马赫数
都是类别:在这种情况下,neg
和pos
。如果语料库具有不同的类别(例如,电影类型而非正面/负面评价),请更改目录结构并调整cat\u模式
参数以匹配
对于具有不同结构的分类语料库,nltk提供了丰富的方法来指定类别;阅读CategorizedPlaintextCorpusReader
的文档