Python 如何批量转换RTF文件以进行NLTK处理?

Python 如何批量转换RTF文件以进行NLTK处理?,python,batch-processing,nltk,rtf,Python,Batch Processing,Nltk,Rtf,我正在尝试将许多RTF文件转换为a)去除它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想结合起来,我有困难这样做 该条带RTF: from pyth.plugins.rtf15.reader import Rtf15Reader from pyth.plugins.plaintext.writer import PlaintextWriter doc = Rtf15Reader.read(open('sample.rtf'))

我正在尝试将许多RTF文件转换为a)去除它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想结合起来,我有困难这样做

该条带RTF:

from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter

doc = Rtf15Reader.read(open('sample.rtf'))

print PlaintextWriter.write(doc).getvalue()
这将创建一个语料库:

corpusdn = '/Users/example/'
dncorpus = nltk.corpus.PlaintextCorpusReader(corpusdn, '.*')
dn = []

for infile in sorted(dncorpus.fileids()):
    input = open(infile, 'r')
    dn.append(input.read())
    print infile

我有太多的文件,无法用手实际地剥离它们,所以我想结合使用这两个命令,但不知道如何操作。(当然,我是Python新手。)欢迎提供任何提示。

可能重复的@alvas此问题使用了该问题中的一些代码,但我想问的是如何将RTF strip命令与之结合。您能复制并粘贴RTF文件的示例吗。