Python 查找word并从大型文本文件中提取表格

Python 查找word并从大型文本文件中提取表格,python,text-files,Python,Text Files,我试图解决以下问题,但我无法让它工作。我的问题如下: 我有一个900多页的长文本文件,我想从中提取某个表。缺点是文件的格式不尽相同。例如,我想提取“产品销售额”表(参见文件)。表格上方和下方是完全不同的文本文件布局。有人能帮忙吗,提前谢谢!我能够做到这一点,但无法从中创建适当的表(即熊猫df) f = open("test.txt", "r") searchlines = f.readlines() searchlines = [x.strip() for x in searchli

我试图解决以下问题,但我无法让它工作。我的问题如下:

我有一个900多页的长文本文件,我想从中提取某个表。缺点是文件的格式不尽相同。例如,我想提取“产品销售额”表(参见文件)。表格上方和下方是完全不同的文本文件布局。有人能帮忙吗,提前谢谢!我能够做到这一点,但无法从中创建适当的表(即熊猫df)

f = open("test.txt", "r")      
searchlines = f.readlines()
searchlines = [x.strip() for x in searchlines] 

f.close()
index = []
for i, line in enumerate(searchlines):
    if "Product Sales" in line:
        index.append(i)

df = searchlines[index[0]:index[1]]

能够帮助您识别您在表格中的位置

尝试
awk'$1==“Product”&&&$2==“Sales”{print“table start”}{print NF,$0}'myfile.txt>output.txt
,您将看到您能够检测到表的开始,然后表行-单元格位于$1中$10-然后表的末尾-两行空行


如果需要的话,你可以处理这个问题,然后带着问题回来。

发布真实的文件(如果文件很大,也可以链接到),而不是图片。此外,这是一个单一的文件和一个一次性脚本,还是你有很多或多或少类似的文件需要定期处理?注意,基本上你需要的是一种方法来确定有用的部分从哪一行开始。请不要在注释中发布代码,这是完全不可读的。改为编辑你的帖子。你好,布鲁诺,谢谢你的评论。我必须定期处理同一个文件。我找不到如何上传文件..啊,谢谢,新发布的问题。但我认为它现在起作用了谢谢你的回答,我对awk一无所知,所以我会努力弄清楚它是如何工作的。我