R 如何仅选择包含[YYYY-MM-DD]的行?

R 如何仅选择包含[YYYY-MM-DD]的行?,r,string,R,String,我正在查看一个包含35383条推文的数据集,其中我只需要选择包含以下日期的推文: [2020-03-05] Power Plant Mines BTC 5.5/day [2020-03-30] Bitcoin Is Making a Gradual Fall, May [2020-04-04] Github Freezes Bitcoin Code in Arctic Ice 而不是像 Subject POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2

我正在查看一个包含35383条推文的数据集,其中我只需要选择包含以下日期的推文:

[2020-03-05] Power Plant Mines BTC 5.5/day
[2020-03-30] Bitcoin Is Making a Gradual Fall, May
[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice
而不是像

Subject
POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2  All »
etc.
等等

我已经试过了,但是运气不好:

library(tidyverse)
data_clean <- data_clean %>%
  filter(!data_clean[,1] == str_detect(data_clean[,1], pattern = "^/[[0-9]{4}.{1}[0-9]{2}.{1}[0-9]{2}/].{*}"))
库(tidyverse)
数据清洁%
过滤器(!data_clean[,1]==str_detect(data_clean[,1],pattern=“^/[[0-9]{4}.{1}[0-9]{2}.{*}”))
我认为可能是文本中的[]造成了问题

我添加了一张输出的照片,其中第一个数字部分是dput()。dput()提供了一个非常长且混乱的输出,所以下面是数据的前10行


grep
函数将完成此操作

testinput <- c("[2020-03-05] Power Plant Mines BTC 5.5/day",
"[2020-03-30] Bitcoin Is Making a Gradual Fall, May",
"[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice",
"POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2  All »")


grep("[\\d+]",testinput,value = T)


[1] "[2020-03-05] Power Plant Mines BTC 5.5/day"            
[2] "[2020-03-30] Bitcoin Is Making a Gradual Fall, May"    
[3] "[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice"

testinput您的正则表达式中有一些错误。
/[
/]
/
不是转义,您需要使用
\
。 你也不应该在量词中使用
*
,所以不要使用
{*}
而是使用
*

库(stringr)
txt[1]真-假-真

能否使用
dput(…)
添加数据示例?