将PDF复制到更友好的内容

将PDF复制到更友好的内容,pdf,text,Pdf,Text,我有几个PDF格式的文件,几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单(并将其自动化),基本上将对话/标题等内容刮到原始数据中(比如“X说了多少次Y?”) 有没有一种方法可以将PDF转换成更友好的格式(比如HTML或伪HTML),这样我就可以准确地看到发生了什么 我目前正在使用一个刮板,它可以将所有包含的文本转换成一个txt文件,这是很有用的,除了它会抛出格式(粗体语句等),这将使生活更加轻松 如果您能用Python以这种方式浏览PDF,我们将不胜感激。您可以查看我们的开源库PDF2JSO

我有几个PDF格式的文件,几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单(并将其自动化),基本上将对话/标题等内容刮到原始数据中(比如“X说了多少次Y?”)

有没有一种方法可以将PDF转换成更友好的格式(比如HTML或伪HTML),这样我就可以准确地看到发生了什么

我目前正在使用一个刮板,它可以将所有包含的文本转换成一个txt文件,这是很有用的,除了它会抛出格式(粗体语句等),这将使生活更加轻松


如果您能用Python以这种方式浏览PDF,我们将不胜感激。

您可以查看我们的开源库PDF2JSON。它将所有文本数据转换为JSON或XML,以便您更方便地检查它


我想这些PDF不允许您先将其保存为文本?有些人…嗯。。。我不知道你说的是什么意思。我的文件夹里有PDF文件。是否有标准功能仅将它们保存为文本?我应该澄清这些PDF不是100%的单词。这里有一些图片和表格,但这些(目前)与我的目的基本无关。好吧,当我打开一些PDF时,我可以选择将它们保存为文本。不是所有的PDF。我想这取决于它们是如何产生的。啊,我只是试过了。它的工作方式似乎与通常将其转换为txt的方式相同,这并没有太大帮助。我现在正在探索一些类似的选项,但这些选项并不容易获得。您是否尝试过以下方法: