Python 预处理(rstrip、正则表达式和更简单的代码)
我正在尝试读取200个txt文件并进行一些预处理 1) 如何编写更简单的代码,而不是为每个txt文件编写相同的代码 2) 我可以将正则表达式与rstrip结合起来吗 ->主要是,我想去掉“\n”,但有时它们会与其他字母粘在一起。因此,我想要的是删除每个\n以及与\n组合的单词(即“\n?”,“!\n.”等等) 3) 在最后一行,是否有一种方法可以使用更简单的代码将所有列表添加到一个列表中? ..(最多第200个文件)Python 预处理(rstrip、正则表达式和更简单的代码),python,regex,Python,Regex,我正在尝试读取200个txt文件并进行一些预处理 1) 如何编写更简单的代码,而不是为每个txt文件编写相同的代码 2) 我可以将正则表达式与rstrip结合起来吗 ->主要是,我想去掉“\n”,但有时它们会与其他字母粘在一起。因此,我想要的是删除每个\n以及与\n组合的单词(即“\n?”,“!\n.”等等) 3) 在最后一行,是否有一种方法可以使用更简单的代码将所有列表添加到一个列表中? ..(最多第200个文件) 首先,我不是python专家。但既然这个问题已经存在一段时间了。。。(
首先,我不是python专家。但既然这个问题已经存在一段时间了。。。(如果没有人看这个^^^,至少我不会被否决) 1) 使用循环,阅读编程教程。 例如,请参阅这篇关于如何获取所有行的列表的文章。然后你可以在列表上循环 2) 不知道是否可以将正则表达式与strip一起使用,这让我来到这里,所以如果你发现了,请告诉我 现在还不清楚你到底想要什么,你是想去掉所有包含“/n”的单词(空格分隔),还是干脆去掉“/n”、“/n”,。。。部分单词 在第一种情况下,一个简单的、不合法的解决方案是在一行和一行中的所有单词上有两个循环,然后执行如下操作
#以i作为索引循环行
行=行[i]。拆分(“”)
对于范围len(世界其他地区)中的j:
如果第[j]行(“/n”)
德尔罗[j]
行[i]=“”。加入(行)
在后一种情况下,如果没有那么多的表达式需要删除,您可能会以某种方式使用re.sub()。谷歌帮助;)
3) 如果将行作为字符串的“行”列表,则可以使用join:
ds_1=”“.加入(行)
(对于加入:)
data = open("job (0).txt", 'r').read()
rows0 = data.split(" ")
rows0 = [item.rstrip('\n?, \n') for item in rows0]
data = open("job (1).txt", 'r').read()
rows1 = data.split(" ")
rows1 = [item.rstrip('\n?, \n') for item in rows1]
data = open("job (199).txt", 'r').read()
rows199 = data.split(" ")
rows199 = [item.rstrip('\n?, \n') for item in rows199]
ds_l = rows0 + rows1 + ... rows199