使用Python读取pdf内容_Python_Pdf_Pdf Reader

使用Python读取pdf内容

python pdf

使用Python读取pdf内容,python,pdf,pdf-reader,Python,Pdf,Pdf Reader,我试图阅读下面的pdf文件，我需要保存在单独的文件中的每一篇文章一篇文章可以是一页或多页。我已经使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章我是Python新手。请提供一个最好的方法或示例代码来分别提取每篇文章？老实说。我以前从未使用过PDFMiner，但是如果您已经将PDF文件转换为文本文件，您是否可以将文本文件解析为字符串，然后根据“纽约时报”标题将字符串拆分为不同的文章？我猜这是假设PDFMiner能够阅读那种奇特的字体，我不知道这是否可行查看您提

我试图阅读下面的pdf文件，我需要保存在单独的文件中的每一篇文章

一篇文章可以是一页或多页。我已经使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章

我是Python新手。请提供一个最好的方法或示例代码来分别提取每篇文章？

老实说。我以前从未使用过PDFMiner，但是如果您已经将PDF文件转换为文本文件，您是否可以将文本文件解析为字符串，然后根据“纽约时报”标题将字符串拆分为不同的文章？我猜这是假设PDFMiner能够阅读那种奇特的字体，我不知道这是否可行

查看您提供的文件，您可以选择以下内容：

reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')

拆分纸将是一个数组，包含索引1、2、3、4、5、6中的文章（索引0将包含初始标题）。你必须做一些其他的字符串清理来获得准确的文章，但这至少应该让你开始

有意义吗？

这是我的电子邮件：kannan4k@gmail.com谢谢devnullHi devnull，我在等待您的回复！请让我知道请找到相应的文本文件。更新了最初的评论。如果你有任何问题，请告诉我。