Python 查找word并从大型文本文件中提取表格_Python_Text Files

Python 查找word并从大型文本文件中提取表格

python

Python 查找word并从大型文本文件中提取表格,python,text-files,Python,Text Files,我试图解决以下问题，但我无法让它工作。我的问题如下：我有一个900多页的长文本文件，我想从中提取某个表。缺点是文件的格式不尽相同。例如，我想提取“产品销售额”表（参见文件）。表格上方和下方是完全不同的文本文件布局。有人能帮忙吗，提前谢谢！我能够做到这一点，但无法从中创建适当的表（即熊猫df） f = open("test.txt", "r") searchlines = f.readlines() searchlines = [x.strip() for x in searchli

我试图解决以下问题，但我无法让它工作。我的问题如下：

我有一个900多页的长文本文件，我想从中提取某个表。缺点是文件的格式不尽相同。例如，我想提取“产品销售额”表（参见文件）。表格上方和下方是完全不同的文本文件布局。有人能帮忙吗，提前谢谢！我能够做到这一点，但无法从中创建适当的表（即熊猫df）

f = open("test.txt", "r")      
searchlines = f.readlines()
searchlines = [x.strip() for x in searchlines] 

f.close()
index = []
for i, line in enumerate(searchlines):
    if "Product Sales" in line:
        index.append(i)

df = searchlines[index[0]:index[1]]

能够帮助您识别您在表格中的位置

尝试

awk'$1==“Product”&&&$2==“Sales”{print“table start”}{print NF，$0}'myfile.txt>output.txt

，您将看到您能够检测到表的开始，然后表行-单元格位于$1中$10-然后表的末尾-两行空行

如果需要的话，你可以处理这个问题，然后带着问题回来。

发布真实的文件（如果文件很大，也可以链接到），而不是图片。此外，这是一个单一的文件和一个一次性脚本，还是你有很多或多或少类似的文件需要定期处理？注意，基本上你需要的是一种方法来确定有用的部分从哪一行开始。请不要在注释中发布代码，这是完全不可读的。改为编辑你的帖子。你好，布鲁诺，谢谢你的评论。我必须定期处理同一个文件。我找不到如何上传文件..啊，谢谢，新发布的问题。但我认为它现在起作用了谢谢你的回答，我对awk一无所知，所以我会努力弄清楚它是如何工作的。我