Python 从文本中提取行

Python 从文本中提取行,python,Python,您好,我正在尝试从pdf文件的文本提取中提取特定行,但无法执行此操作 下面是我的代码 from tika import parser parsed_pdf = parser.from_file("mypdf.pdf") data =parsed_pdf['content'] print(data) clean_data =data.strip() regex = r':\s*\n+' subst = ": " for line in re.sub(

您好,我正在尝试从pdf文件的文本提取中提取特定行,但无法执行此操作 下面是我的代码


from tika import parser 
parsed_pdf = parser.from_file("mypdf.pdf")
data =parsed_pdf['content'] 
print(data)
clean_data =data.strip()
regex = r':\s*\n+'
subst = ": "

for line in re.sub(regex, subst, clean_data, 0, re.MULTILINE).split('\n'):
    if line != '':
        print (line.strip())  
我得到的输出是

义务公告-2021年5月31日第2102361号公告
31 mai 2021第65号法律义务公告
2102361第1页
Avis de Conference/Avis de réunion
基金会7号投资
法国匿名银行(SociétéAnonyme au capital de 1 120 000欧元)
Siège social:皮埃尔·查伦街55号——巴黎75008
486820 152 RCS巴黎
________________________________________
2021年5月26日,第63号公告
《防止新冠病毒》,第三段是修正的共同诉讼:2021年,在10个小时内,在社会和经济领域,有290万人参加了集会,
这是可能的助理人员。在条件允许的情况下,采取行动是必要的
选民投票与票数相当
没有曼达泰尔的迹象。»
这是一个特别的日子,一个关于解放的日子,一个关于国家的日子
资本扩张过程中的行政管理效应
社会地位的使命
适用条款L.225-129-6商业代码和L.3332-18商业代码
这是一种感觉。
在大会上,参与的条件是什么。有效的形式
分词:集合词,文本和修正词:(……)
符合第R.225-85条《商业守则》的规定,适用于汇编中的分词
行动的理由:-行动提名:联合国登记的可补偿行动
企业所得税是社会保险公司加上公共保险公司所得税的提名
2021年,巴黎万达币2500万元,巴黎万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币,万达币
巴黎
-行动报告:登记符合条件的行动(le caséchéant)
关于环境问题的行动协调标准的中间名称
我爱你。
哈比利托加上巴黎会议中心,
2021年25万英镑的本德雷迪之家位于巴黎。哈比利特酒店
参加者不参加投票
诉讼名称与代理权的对应关系
这句话的意思是:
我们的行动证明了这一点,同时也证明了这一点
2021年,巴黎万达之乡2500万欧元,巴黎万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达之乡万达
巴黎、丹麦、法国、法国、法国和法国。
《行动纲领》为你方的行动提供了一个契机:2021年,割让权干预了2500万先例
巴黎,勒庞投票赞成,勒波沃尔
参与证明,请按顺序进行修改。塞特
最后,在法国社会的割让通知人的情况下
Transmetre les Information s nécessaires;
31 mai 2021第65号法律义务公告
2102361第2页
-这是一个25亿欧元的特许经营权
2021,Z Ze Ro HeCe,HeEe de巴黎
L'In MedidiaHabiLeTee PusieSouth-PosiaSoutheT.E.FoucIe Re 7的研究。
Dans B.Dépôt de questionsécrites,le texte est rectifiécomme suit。
符合《商业守则》第225-84条的规定,即《行动纲领》第225-84条
问题是,在会议日期加上tard之后,会议时间是多少,
索伊勒梅尔克里迪23居2021,米努伊特,巴黎
皮埃尔街第55号兴业银行第7次投资建议
巴黎夏隆75008,巴黎电子大道contact@fonciere7investissement.fr. 倾注
完整的证书,与铭文的认证一起使用,因此
让我们共同努力。
中间提及《货币与金融家法典》第l.211-3条。
联合国将于15日召开公共公告会议
装配日期的先锋。
Le présend Avis rectificatif est publiésur Le site internet de la Sociaété:http://www.fonciere7investissement.fr
法国兴业银行第7次投资管理委员会
31 mai 2021第65号法律义务公告
2102361第3页
如何从此处仅提取包含FONCIERE 7 Investissment的第5行

我试过了

print(line[5])

但将输出作为

6

非常感谢您的帮助关于
打印(clean_data.split('\n')[4])

首先,在python中,列表索引是以零为基础的,这意味着当您请求索引
5
时,您将得到第六个元素

其次,
包含一行!它不是所有行的集合,因此
line[5]all_lines = re.sub(regex, subst, clean_data, 0, re.MULTILINE).split('\n')
all_lines[4]
all_lines = []
for line in re.sub(regex, subst, clean_data, 0, re.MULTILINE).split('\n'):
    if line:
        all_lines.append(line)

print(all_lines[4])
all_lines = [line for line in re.sub(regex, subst, clean_data, 0, re.MULTILINE).split('\n') if line]
search_term = "FONCIERE 7 INVESTISSEMENT"
all_lines_containing_term = [line for line in re.sub(regex, subst, clean_data, 0, re.MULTILINE).split('\n') if search_term in line.upper()]