Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/300.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python读取pdf内容_Python_Pdf_Pdf Reader - Fatal编程技术网

使用Python读取pdf内容

使用Python读取pdf内容,python,pdf,pdf-reader,Python,Pdf,Pdf Reader,我试图阅读下面的pdf文件,我需要保存在单独的文件中的每一篇文章 一篇文章可以是一页或多页。我已经使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章 我是Python新手。请提供一个最好的方法或示例代码来分别提取每篇文章?老实说。我以前从未使用过PDFMiner,但是如果您已经将PDF文件转换为文本文件,您是否可以将文本文件解析为字符串,然后根据“纽约时报”标题将字符串拆分为不同的文章?我猜这是假设PDFMiner能够阅读那种奇特的字体,我不知道这是否可行 查看您提

我试图阅读下面的pdf文件,我需要保存在单独的文件中的每一篇文章

一篇文章可以是一页或多页。我已经使用PDFMiner将整个pdf转换为txt文件。但我不知道如何转换成多篇文章


我是Python新手。请提供一个最好的方法或示例代码来分别提取每篇文章?

老实说。我以前从未使用过PDFMiner,但是如果您已经将PDF文件转换为文本文件,您是否可以将文本文件解析为字符串,然后根据“纽约时报”标题将字符串拆分为不同的文章?我猜这是假设PDFMiner能够阅读那种奇特的字体,我不知道这是否可行

查看您提供的文件,您可以选择以下内容:

reading = open('test.txt')
full_paper = reading.read()
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.')
拆分纸将是一个数组,包含索引1、2、3、4、5、6中的文章(索引0将包含初始标题)。你必须做一些其他的字符串清理来获得准确的文章,但这至少应该让你开始


有意义吗?

这是我的电子邮件:kannan4k@gmail.com谢谢devnullHi devnull,我在等待您的回复!请让我知道请找到相应的文本文件。更新了最初的评论。如果你有任何问题,请告诉我。