R 如何仅选择包含[YYYY-MM-DD]的行?
我正在查看一个包含35383条推文的数据集,其中我只需要选择包含以下日期的推文:R 如何仅选择包含[YYYY-MM-DD]的行?,r,string,R,String,我正在查看一个包含35383条推文的数据集,其中我只需要选择包含以下日期的推文: [2020-03-05] Power Plant Mines BTC 5.5/day [2020-03-30] Bitcoin Is Making a Gradual Fall, May [2020-04-04] Github Freezes Bitcoin Code in Arctic Ice 而不是像 Subject POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2
[2020-03-05] Power Plant Mines BTC 5.5/day
[2020-03-30] Bitcoin Is Making a Gradual Fall, May
[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice
而不是像
Subject
POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2 All »
etc.
等等
我已经试过了,但是运气不好:
library(tidyverse)
data_clean <- data_clean %>%
filter(!data_clean[,1] == str_detect(data_clean[,1], pattern = "^/[[0-9]{4}.{1}[0-9]{2}.{1}[0-9]{2}/].{*}"))
库(tidyverse)
数据清洁%
过滤器(!data_clean[,1]==str_detect(data_clean[,1],pattern=“^/[[0-9]{4}.{1}[0-9]{2}.{*}”))
我认为可能是文本中的[]造成了问题
我添加了一张输出的照片,其中第一个数字部分是dput()。dput()提供了一个非常长且混乱的输出,所以下面是数据的前10行
此
grep
函数将完成此操作
testinput <- c("[2020-03-05] Power Plant Mines BTC 5.5/day",
"[2020-03-30] Bitcoin Is Making a Gradual Fall, May",
"[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice",
"POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2 All »")
grep("[\\d+]",testinput,value = T)
[1] "[2020-03-05] Power Plant Mines BTC 5.5/day"
[2] "[2020-03-30] Bitcoin Is Making a Gradual Fall, May"
[3] "[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice"
testinput您的正则表达式中有一些错误。
/[
和/]
,/
不是转义,您需要使用\
。
你也不应该在量词中使用*
,所以不要使用{*}
而是使用*
库(stringr)
txt[1]真-假-真
能否使用dput(…)
添加数据示例?