R中的文本挖掘-从文本文件中删除以关键字开头的行

R中的文本挖掘-从文本文件中删除以关键字开头的行,r,pdf,text-mining,R,Pdf,Text Mining,我正在将文本文件读入R,如下所示: test<-readLines("D:/AAPL MSFT Earnings Calls/Test/Test.txt") 什么是foo/baz/qux字符?多谢各位 library(purrr) library(stringr) file <- "foo Page, bar baz Market Cap, qux" test <- readLines(con = textConnection(file)) ignore_patterns &

我正在将文本文件读入R,如下所示:

test<-readLines("D:/AAPL MSFT Earnings Calls/Test/Test.txt")
什么是foo/baz/qux字符?多谢各位

library(purrr)
library(stringr)
file <- "foo
Page, bar
baz
Market Cap, qux"
test <- readLines(con = textConnection(file))
ignore_patterns <- c("^Page,", "^Market\\s+Cap,")
test %>% discard(~ any(str_detect(.x, ignore_patterns)))

^帮助检查开始。因此,如果行以Page或|市值开头,则grepl返回TRUE

grepl^Page |市值,df$id用于子集行。替换为您的关键字。我想知道你的第一篇专栏嗨,很抱歉耽搁了。你能给我介绍一个能帮助我将文本文件转换成数据帧的源代码吗?文本文件将是非结构化的通话记录。这看起来是一个很好的解决方案,但我是一个新手,我需要补救训练!谢谢。使用read.table查看R控制台中的详细信息类型?read.table@GeorgeMhey@GeorgeM希望你的真实数据正确!是的。继续前进。谢谢你的帮助。我想我做错了什么。我的代码/输出粘贴在顶部。理想情况下,当我打印结果时,我应该基本上看到我的文本文件被包含页面和市值的行剥离,正确吗?感谢您的耐心,我显然是新手。您是否已首先使用install.packagescpurrr、stringr安装了purrr和stringr,并且没有错误?检查install.packages的输出。。。
> text1
[1] "foo"             "Page, bar"       "baz"             "Market Cap, qux"
library(purrr)
library(stringr)
file <- "foo
Page, bar
baz
Market Cap, qux"
test <- readLines(con = textConnection(file))
ignore_patterns <- c("^Page,", "^Market\\s+Cap,")
test %>% discard(~ any(str_detect(.x, ignore_patterns)))
# once you have read and stored in a data.frame
# perform below subsetting :
x = grepl("^(Page|Market Cap)", df$id) # where df is you data.frame and 'id' is your 
                                       # column name that has those unwanted keywords
df <- df[!x,]  # does the job!