R 按多个特定字符提取大数据的子集
我有一个大型数据库,它将文件分为多个块,以便于分析/存储。我正试图从单个列中提取以字符格式存储的多个特定值,以获取整个数据块,以便进行进一步分析 在这些文件中,我感兴趣的是拉取列“Cat”等于任意字符数的所有行(每个拉取和每个文件都不同) 文件设置(例如)为: 目前,我正在做以下工作:R 按多个特定字符提取大数据的子集,r,subset,extract,lapply,R,Subset,Extract,Lapply,我有一个大型数据库,它将文件分为多个块,以便于分析/存储。我正试图从单个列中提取以字符格式存储的多个特定值,以获取整个数据块,以便进行进一步分析 在这些文件中,我感兴趣的是拉取列“Cat”等于任意字符数的所有行(每个拉取和每个文件都不同) 文件设置(例如)为: 目前,我正在做以下工作: #Create a list of files- fill out pattern to chose specific files with similar names 'x<-list.files
#Create a list of files- fill out pattern to chose specific files with similar names
'x<-list.files(pattern = "_x.sas")'
#Read and subset files when Cat is C21 C98 or D27 etc
'z<-lapply(x, function(x) {
a<-read.sas(x)
c<-subset(a, (Cat=="C21" | Cat=="C98 | Cat=="D27))
})'
#Bind df's into master df
'y<-bind_rows(z)'
#创建文件列表-填写模式以选择具有类似名称的特定文件
'xyou应该做子集(a,grepl(paste0(“^”,b,“$”,collapse=“|”)谢谢!这非常有效。您应该执行子集(a,grepl(paste0(“^”,b,“$”,collapse=“|”)
谢谢!这很有效。
#Create a list of files- fill out pattern to chose specific files with similar names
'x<-list.files(pattern = "_x.sas")'
#Read and subset files when Cat is C21 C98 or D27 etc
'z<-lapply(x, function(x) {
a<-read.sas(x)
c<-subset(a, (Cat=="C21" | Cat=="C98 | Cat=="D27))
})'
#Bind df's into master df
'y<-bind_rows(z)'
'b<-List or vector with character values of interest
z<-lapply(x, function(x) { a<-read.sas(x) subset(a, Cat==any(b)) })
y<-bind_rows(z)'