Python 如何批量转换RTF文件以进行NLTK处理?
我正在尝试将许多RTF文件转换为a)去除它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想结合起来,我有困难这样做 该条带RTF:Python 如何批量转换RTF文件以进行NLTK处理?,python,batch-processing,nltk,rtf,Python,Batch Processing,Nltk,Rtf,我正在尝试将许多RTF文件转换为a)去除它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想结合起来,我有困难这样做 该条带RTF: from pyth.plugins.rtf15.reader import Rtf15Reader from pyth.plugins.plaintext.writer import PlaintextWriter doc = Rtf15Reader.read(open('sample.rtf'))
from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter
doc = Rtf15Reader.read(open('sample.rtf'))
print PlaintextWriter.write(doc).getvalue()
这将创建一个语料库:
corpusdn = '/Users/example/'
dncorpus = nltk.corpus.PlaintextCorpusReader(corpusdn, '.*')
dn = []
for infile in sorted(dncorpus.fileids()):
input = open(infile, 'r')
dn.append(input.read())
print infile
我有太多的文件,无法用手实际地剥离它们,所以我想结合使用这两个命令,但不知道如何操作。(当然,我是Python新手。)欢迎提供任何提示。可能重复的@alvas此问题使用了该问题中的一些代码,但我想问的是如何将RTF strip命令与之结合。您能复制并粘贴RTF文件的示例吗。