使用tm软件包打印R中一个语料库元素的第一行_R_Text Mining_Tm_Corpus

使用tm软件包打印R中一个语料库元素的第一行

使用tm软件包打印R中一个语料库元素的第一行,r,text-mining,tm,corpus,R,Text Mining,Tm,Corpus,如何使用tm软件包在R中打印语料库的小样本或第一行？我有一个非常大的语料库（>1GB），正在做一些文本清理。我想在应用清洁程序时进行测试。最好只打印语料库的第一行或前几行 # Load Libraries library(tm) # Read in Corpus corp <- SimpleCorpus( DirSource( "C:/TextDocument")) # Remove puncuation corp <- removePunctuation(corp,

如何使用tm软件包在R中打印语料库的小样本或第一行？我有一个非常大的语料库（>1GB），正在做一些文本清理。我想在应用清洁程序时进行测试。最好只打印语料库的第一行或前几行

# Load Libraries
library(tm)

# Read in Corpus
corp <- SimpleCorpus( DirSource( 
    "C:/TextDocument"))

# Remove puncuation
corp <- removePunctuation(corp,
                      preserve_intra_word_contractions = TRUE,
                      preserve_intra_word_dashes = TRUE)

这两种方法都会导致很长的运行时间，而没有期望的输出

tm软件包中的原始语料库可用于示例目的

data("crude")

strwrap

很好地完成了这项工作，因为它通过在单词边界处断行来打印段落

。（请参见？strwrap
）然后您可以使用head
功能查看前6行
 head(strwrap(corp))

strwrap
可以很好地处理原始数据，但对于我的语料库来说，在一台快速的机器上需要很多分钟。通过尝试str（corp），我很幸运地得到了每个元素的一个非常小的样本，但是有很多不希望的额外输出。有没有更快的方法？@JHall651，你有没有找到这个问题的答案，或者找到一个花费更少时间的方法？这里也有同样的问题。谢谢。你为什么不先取一部分语料库，对它进行所有的文本清理测试，然后对整个语料库进行测试呢？或者切换到quanteda。这是并行的。另外，从语料库中获取信息的最快方式是corp[[1]]$content[[1]]。您可以使用microbenchmark进行一些测试以进行检查。
 head(strwrap(corp))