R 按多个特定字符提取大数据的子集

R 按多个特定字符提取大数据的子集,r,subset,extract,lapply,R,Subset,Extract,Lapply,我有一个大型数据库,它将文件分为多个块,以便于分析/存储。我正试图从单个列中提取以字符格式存储的多个特定值,以获取整个数据块,以便进行进一步分析 在这些文件中,我感兴趣的是拉取列“Cat”等于任意字符数的所有行(每个拉取和每个文件都不同) 文件设置(例如)为: 目前,我正在做以下工作: #Create a list of files- fill out pattern to chose specific files with similar names 'x<-list.files

我有一个大型数据库,它将文件分为多个块,以便于分析/存储。我正试图从单个列中提取以字符格式存储的多个特定值,以获取整个数据块,以便进行进一步分析

在这些文件中,我感兴趣的是拉取列“Cat”等于任意字符数的所有行(每个拉取和每个文件都不同)

文件设置(例如)为:

目前,我正在做以下工作:

#Create a list of files- fill out pattern to chose specific files with similar names
    'x<-list.files(pattern = "_x.sas")'
#Read and subset files when Cat is C21 C98 or D27 etc 
    'z<-lapply(x, function(x) {
      a<-read.sas(x)
      c<-subset(a, (Cat=="C21" | Cat=="C98 | Cat=="D27))
      })'

#Bind df's into master df
    'y<-bind_rows(z)'
#创建文件列表-填写模式以选择具有类似名称的特定文件

'xyou应该做
子集(a,grepl(paste0(“^”,b,“$”,collapse=“|”)谢谢!这非常有效。您应该执行
子集(a,grepl(paste0(“^”,b,“$”,collapse=“|”)
谢谢!这很有效。
#Create a list of files- fill out pattern to chose specific files with similar names
    'x<-list.files(pattern = "_x.sas")'
#Read and subset files when Cat is C21 C98 or D27 etc 
    'z<-lapply(x, function(x) {
      a<-read.sas(x)
      c<-subset(a, (Cat=="C21" | Cat=="C98 | Cat=="D27))
      })'

#Bind df's into master df
    'y<-bind_rows(z)'
'b<-List or vector with character values of interest
z<-lapply(x, function(x) { a<-read.sas(x) subset(a, Cat==any(b)) }) 
y<-bind_rows(z)'