清除文本文件-删除循环中不需要的内容(R/python)

清除文本文件-删除循环中不需要的内容(R/python),python,r,loops,data-cleaning,Python,R,Loops,Data Cleaning,我想清除非结构化文本文件中的所有“浪费”(使文件不适合分析) 在此特定情况下,仅保留所需信息的一个选项是仅保留250以上的所有数字(文本是字符串、数字等的组合) 对于大量文本文件,我想在R中执行以下操作: x <- x[which(x >= "250"),] x=“250”),] 1个文本文件的代码工作得很好(如上所述),当我尝试在循环中执行同样的操作时(对于大量的N个文本文件,它失败了(错误:维数o不正确)) for(1中的i:长度(文件)){ i=“250

我想清除非结构化文本文件中的所有“浪费”(使文件不适合分析)

在此特定情况下,仅保留所需信息的一个选项是仅保留250以上的所有数字(文本是字符串、数字等的组合)

对于大量文本文件,我想在R中执行以下操作:

x <- x[which(x >= "250"),]
x=“250”),]
1个文本文件的代码工作得很好(如上所述),当我尝试在循环中执行同样的操作时(对于大量的N个文本文件,它失败了(错误:维数o不正确))

for(1中的i:长度(文件)){
i=“250”),]
}
有人知道如何在R(或python)中解决这个问题吗


图片:非常简单的文本文件示例,我想保留(开始)和(结束)之间的所有内容。

如果是10k文件,这就没有意义了,为什么还要用R或python呢?为什么不仅仅是一个简单的
awk
或bash命令?此外,您的图像正在从文本文件的开始和结束之间解析信息,不确定它是否是跨列的数据帧(尝试输入一个简单的
dput
,而不是图像)。
您所要做的就是在10K文件的开始和结束之间执行
grep
。我会在bash中这样做。 bash中类似的东西应该可以工作

for i in *.txt
do 
 sed -n '/START/,/END/{//!p}' i > i.edited.txt
done
如果R中的列是标准的,那么可以执行以下操作(但是,我不会在R内存中读取10K文件)。 以数据帧列表的形式读取这些文件,然后简单地执行lappy

a = data.frame(col1 = c(100,250,300))
b = data.frame(col1 = c(250,450,100,346))
c = data.frame(col1 = c(250,123,122,340))

df_list <- list(a = a ,b = b,c = c)
lapply(df_list, subset, col1 >= 250)
a=data.frame(col1=c(100250300))
b=数据帧(col1=c(250450100346))
c=数据帧(col1=c(250123122340))
df_列表=250)

您能提供一个数据示例吗?这很容易做。这些文件从1/4/1993-9UTC-索引:ZR-T-S-RH-G%开始,然后是10^4个科学记数法数字记录(例如2.774E+02),文件的一半又是不需要的信息/文本(每个文本文件的后半部分应完全删除)。-->如前所述,我可以很好地分别处理一个文件,但代码不再在所有文件中循环的循环中工作。我在原始postoh的顶部添加了一个非常简化的文本文件示例,因此您可以从一个路径读取不同的文件,要删除没有250的文件吗?此行的输出是什么<代码>x=“250”),]
a = data.frame(col1 = c(100,250,300))
b = data.frame(col1 = c(250,450,100,346))
c = data.frame(col1 = c(250,123,122,340))

df_list <- list(a = a ,b = b,c = c)
lapply(df_list, subset, col1 >= 250)