如何使用PDFrw从Python中的PDF提取数据

如何使用PDFrw从Python中的PDF提取数据,python,pdf,pdf-reader,pdfrw,Python,Pdf,Pdf Reader,Pdfrw,我试图使用PDFrw从某个PDF(比如页面右上角的PDF)获取数据。我正在使用PDFrw来完成此操作。我查阅了他们提供的文档(我找不到太多),并查看了他们发布在git上的示例代码,但我似乎无法收集足够的信息来完成我想做的事情。我如何制作一个简单的程序,使用PDFrw(或者其他更好的程序)进入PDF并提取某一段文本。我在考虑把它转换成html。。。那会更容易吗?以我上面提供的PDF为例,我想得到(比如)电压,PDF中的电压是600W。。。我如何用最简单的方法来做这件事?我找不到关于这个的任何其他堆

我试图使用PDFrw从某个PDF(比如页面右上角的PDF)获取数据。我正在使用PDFrw来完成此操作。我查阅了他们提供的文档(我找不到太多),并查看了他们发布在git上的示例代码,但我似乎无法收集足够的信息来完成我想做的事情。我如何制作一个简单的程序,使用PDFrw(或者其他更好的程序)进入PDF并提取某一段文本。我在考虑把它转换成html。。。那会更容易吗?以我上面提供的PDF为例,我想得到(比如)电压,PDF中的电压是600W。。。我如何用最简单的方法来做这件事?我找不到关于这个的任何其他堆栈溢出问题,所以希望有人能帮助以前使用过它的人


谢谢

我是《pdfrw》的作者,它并不是专门为此而设计的。你可能应该看看pdfminer