使用tm软件包打印R中一个语料库元素的第一行

使用tm软件包打印R中一个语料库元素的第一行,r,text-mining,tm,corpus,R,Text Mining,Tm,Corpus,如何使用tm软件包在R中打印语料库的小样本或第一行?我有一个非常大的语料库(>1GB),正在做一些文本清理。我想在应用清洁程序时进行测试。最好只打印语料库的第一行或前几行 # Load Libraries library(tm) # Read in Corpus corp <- SimpleCorpus( DirSource( "C:/TextDocument")) # Remove puncuation corp <- removePunctuation(corp,

如何使用tm软件包在R中打印语料库的小样本或第一行?我有一个非常大的语料库(>1GB),正在做一些文本清理。我想在应用清洁程序时进行测试。最好只打印语料库的第一行或前几行

# Load Libraries
library(tm)

# Read in Corpus
corp <- SimpleCorpus( DirSource( 
    "C:/TextDocument"))

# Remove puncuation
corp <- removePunctuation(corp,
                      preserve_intra_word_contractions = TRUE,
                      preserve_intra_word_dashes = TRUE)
这两种方法都会导致很长的运行时间,而没有期望的输出

tm软件包中的原始语料库可用于示例目的

data("crude")

strwrap
很好地完成了这项工作,因为它通过在单词边界处断行来打印段落
。(请参见
?strwrap
)然后您可以使用
head
功能查看前6行

 head(strwrap(corp))

strwrap
可以很好地处理原始数据,但对于我的语料库来说,在一台快速的机器上需要很多分钟。通过尝试
str(corp)
,我很幸运地得到了每个元素的一个非常小的样本,但是有很多不希望的额外输出。有没有更快的方法?@JHall651,你有没有找到这个问题的答案,或者找到一个花费更少时间的方法?这里也有同样的问题。谢谢。你为什么不先取一部分语料库,对它进行所有的文本清理测试,然后对整个语料库进行测试呢?或者切换到quanteda。这是并行的。另外,从语料库中获取信息的最快方式是corp[[1]]$content[[1]]。您可以使用microbenchmark进行一些测试以进行检查。
 head(strwrap(corp))