Python NLTK分类语料库创建
我目前在试图创建语料库时遇到了一些愚蠢的问题,即在所有子文件夹中包含文件Python NLTK分类语料库创建,python,nltk,Python,Nltk,我目前在试图创建语料库时遇到了一些愚蠢的问题,即在所有子文件夹中包含文件 CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',') 我的问题是,我的所有文本文件都不在一个文件夹中。它们都在子文件夹中。如何包含此目录和所有子目录中的所有文本文件?如果我在“T
CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',')
我的问题是,我的所有文本文件都不在一个文件夹中。它们都在子文件夹中。如何包含此目录和所有子目录中的所有文本文件?如果我在“TextForAnalysis”文件夹中有所有文件,则所有文件都只在文件中工作。尝试使用
cat\u模式
选项:
CorpusList = CategorizedPlaintextCorpusReader(
'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\',
r'.*/.txt',
cat_file='CAT.txt',
cat_delimiter=',',
cat_pattern='(.+)/*')