R中的文本挖掘-从文本文件中删除以关键字开头的行_R_Pdf_Text Mining

R中的文本挖掘-从文本文件中删除以关键字开头的行

r pdf

R中的文本挖掘-从文本文件中删除以关键字开头的行,r,pdf,text-mining,R,Pdf,Text Mining,我正在将文本文件读入R，如下所示： test<-readLines("D:/AAPL MSFT Earnings Calls/Test/Test.txt") 什么是foo/baz/qux字符？多谢各位 library(purrr) library(stringr) file <- "foo Page, bar baz Market Cap, qux" test <- readLines(con = textConnection(file)) ignore_patterns &

我正在将文本文件读入R，如下所示：

test<-readLines("D:/AAPL MSFT Earnings Calls/Test/Test.txt")

什么是foo/baz/qux字符？多谢各位

library(purrr)
library(stringr)
file <- "foo
Page, bar
baz
Market Cap, qux"
test <- readLines(con = textConnection(file))
ignore_patterns <- c("^Page,", "^Market\\s+Cap,")
test %>% discard(~ any(str_detect(.x, ignore_patterns)))

^帮助检查开始。因此，如果行以Page或|市值开头，则grepl返回TRUE

grepl^Page |市值，df$id用于子集行。替换为您的关键字。我想知道你的第一篇专栏嗨，很抱歉耽搁了。你能给我介绍一个能帮助我将文本文件转换成数据帧的源代码吗？文本文件将是非结构化的通话记录。这看起来是一个很好的解决方案，但我是一个新手，我需要补救训练！谢谢。使用read.table查看R控制台中的详细信息类型？read.table@GeorgeMhey@GeorgeM希望你的真实数据正确！是的。继续前进。谢谢你的帮助。我想我做错了什么。我的代码/输出粘贴在顶部。理想情况下，当我打印结果时，我应该基本上看到我的文本文件被包含页面和市值的行剥离，正确吗？感谢您的耐心，我显然是新手。您是否已首先使用install.packagescpurrr、stringr安装了purrr和stringr，并且没有错误？检查install.packages的输出。。。

> text1
[1] "foo"             "Page, bar"       "baz"             "Market Cap, qux"

library(purrr)
library(stringr)
file <- "foo
Page, bar
baz
Market Cap, qux"
test <- readLines(con = textConnection(file))
ignore_patterns <- c("^Page,", "^Market\\s+Cap,")
test %>% discard(~ any(str_detect(.x, ignore_patterns)))

# once you have read and stored in a data.frame
# perform below subsetting :
x = grepl("^(Page|Market Cap)", df$id) # where df is you data.frame and 'id' is your 
                                       # column name that has those unwanted keywords
df <- df[!x,]  # does the job!