清除文本文件-删除循环中不需要的内容（R/python）_Python_R_Loops_Data Cleaning

清除文本文件-删除循环中不需要的内容（R/python）

python r loops

清除文本文件-删除循环中不需要的内容（R/python）,python,r,loops,data-cleaning,Python,R,Loops,Data Cleaning,我想清除非结构化文本文件中的所有“浪费”（使文件不适合分析）在此特定情况下，仅保留所需信息的一个选项是仅保留250以上的所有数字（文本是字符串、数字等的组合）对于大量文本文件，我想在R中执行以下操作： x <- x[which(x >= "250"),] x=“250”），] 1个文本文件的代码工作得很好（如上所述），当我尝试在循环中执行同样的操作时（对于大量的N个文本文件，它失败了（错误：维数o不正确）） for（1中的i：长度（文件））{ i=“250

我想清除非结构化文本文件中的所有“浪费”（使文件不适合分析）

在此特定情况下，仅保留所需信息的一个选项是仅保留250以上的所有数字（文本是字符串、数字等的组合）

对于大量文本文件，我想在R中执行以下操作：

x <- x[which(x >= "250"),]

x=“250”），]

1个文本文件的代码工作得很好（如上所述），当我尝试在循环中执行同样的操作时（对于大量的N个文本文件，它失败了（错误：维数o不正确））

for（1中的i：长度（文件））{
i=“250”），]
}

有人知道如何在R（或python）中解决这个问题吗

图片：非常简单的文本文件示例，我想保留（开始）和（结束）之间的所有内容。

如果是10k文件，这就没有意义了，为什么还要用R或python呢？为什么不仅仅是一个简单的

awk

或bash命令？此外，您的图像正在从文本文件的开始和结束之间解析信息，不确定它是否是跨列的数据帧（尝试输入一个简单的

dput

，而不是图像）。
您所要做的就是在10K文件的开始和结束之间执行

grep

。我会在bash中这样做。 bash中类似的东西应该可以工作

for i in *.txt
do 
 sed -n '/START/,/END/{//!p}' i > i.edited.txt
done

如果R中的列是标准的，那么可以执行以下操作（但是，我不会在R内存中读取10K文件）。以数据帧列表的形式读取这些文件，然后简单地执行lappy

a = data.frame(col1 = c(100,250,300))
b = data.frame(col1 = c(250,450,100,346))
c = data.frame(col1 = c(250,123,122,340))

df_list <- list(a = a ,b = b,c = c)
lapply(df_list, subset, col1 >= 250)

a=data.frame（col1=c（100250300））
b=数据帧（col1=c（250450100346））
c=数据帧（col1=c（250123122340））
df_列表=250）

您能提供一个数据示例吗？这很容易做。这些文件从1/4/1993-9UTC-索引：ZR-T-S-RH-G%开始，然后是10^4个科学记数法数字记录（例如2.774E+02），文件的一半又是不需要的信息/文本（每个文本文件的后半部分应完全删除）。-->如前所述，我可以很好地分别处理一个文件，但代码不再在所有文件中循环的循环中工作。我在原始postoh的顶部添加了一个非常简化的文本文件示例，因此您可以从一个路径读取不同的文件，要删除没有250的文件吗？此行的输出是什么<代码>x=“250”），]

a = data.frame(col1 = c(100,250,300))
b = data.frame(col1 = c(250,450,100,346))
c = data.frame(col1 = c(250,123,122,340))

df_list <- list(a = a ,b = b,c = c)
lapply(df_list, subset, col1 >= 250)