Collections 我可以从NLTK中的字符串集合创建语料库吗?

Collections 我可以从NLTK中的字符串集合创建语料库吗?,collections,nltk,corpus,Collections,Nltk,Corpus,有没有一种方法可以创建语料库,而不必在文件中包含项目。例如,我想操纵我从网络上获取的推文或段落。我能做点像这样的事吗 myCorpus = MyCorpus([ ('id', 'item', 'category'), ('id', 'item', 'category'), ('id', 'item', 'category'), ... ]) 或 目的是使用现有的NLTK功能操作语料库。我检查了TextCollection,但它似乎不处理类别。为什么不将字符串

有没有一种方法可以创建语料库,而不必在文件中包含项目。例如,我想操纵我从网络上获取的推文或段落。我能做点像这样的事吗

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])


目的是使用现有的NLTK功能操作语料库。我检查了
TextCollection
,但它似乎不处理类别。

为什么不将字符串写入一个或多个文件,然后将其作为语料库进行处理?

将内容保存在内存中可能会更快。例如,如果您正在从web上抓取内容。
myCorpus.add('id', 'item', 'category')