Python NLTK分类语料库创建

Python NLTK分类语料库创建,python,nltk,Python,Nltk,我目前在试图创建语料库时遇到了一些愚蠢的问题,即在所有子文件夹中包含文件 CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',') 我的问题是,我的所有文本文件都不在一个文件夹中。它们都在子文件夹中。如何包含此目录和所有子目录中的所有文本文件?如果我在“T

我目前在试图创建语料库时遇到了一些愚蠢的问题,即在所有子文件夹中包含文件

CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',')

我的问题是,我的所有文本文件都不在一个文件夹中。它们都在子文件夹中。如何包含此目录和所有子目录中的所有文本文件?如果我在“TextForAnalysis”文件夹中有所有文件,则所有文件都只在文件中工作。

尝试使用
cat\u模式
选项:

CorpusList = CategorizedPlaintextCorpusReader(
    'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\',
    r'.*/.txt',
    cat_file='CAT.txt',
    cat_delimiter=',',
    cat_pattern='(.+)/*')