将PDF复制到更友好的内容_Pdf_Text

将PDF复制到更友好的内容

pdf text

将PDF复制到更友好的内容,pdf,text,Pdf,Text,我有几个PDF格式的文件，几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单（并将其自动化），基本上将对话/标题等内容刮到原始数据中（比如“X说了多少次Y？”）有没有一种方法可以将PDF转换成更友好的格式（比如HTML或伪HTML），这样我就可以准确地看到发生了什么我目前正在使用一个刮板，它可以将所有包含的文本转换成一个txt文件，这是很有用的，除了它会抛出格式（粗体语句等），这将使生活更加轻松如果您能用Python以这种方式浏览PDF，我们将不胜感激。您可以查看我们的开源库PDF2JSO

我有几个PDF格式的文件，几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单（并将其自动化），基本上将对话/标题等内容刮到原始数据中（比如“X说了多少次Y？”）

有没有一种方法可以将PDF转换成更友好的格式（比如HTML或伪HTML），这样我就可以准确地看到发生了什么

我目前正在使用一个刮板，它可以将所有包含的文本转换成一个txt文件，这是很有用的，除了它会抛出格式（粗体语句等），这将使生活更加轻松

如果您能用Python以这种方式浏览PDF，我们将不胜感激。

您可以查看我们的开源库PDF2JSON。它将所有文本数据转换为JSON或XML，以便您更方便地检查它

我想这些PDF不允许您先将其保存为文本？有些人…嗯。。。我不知道你说的是什么意思。我的文件夹里有PDF文件。是否有标准功能仅将它们保存为文本？我应该澄清这些PDF不是100%的单词。这里有一些图片和表格，但这些（目前）与我的目的基本无关。好吧，当我打开一些PDF时，我可以选择将它们保存为文本。不是所有的PDF。我想这取决于它们是如何产生的。啊，我只是试过了。它的工作方式似乎与通常将其转换为txt的方式相同，这并没有太大帮助。我现在正在探索一些类似的选项，但这些选项并不容易获得。您是否尝试过以下方法：