Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/305.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在python中将从PDF提取的文本格式化为json_Python_Json_Pypdf2 - Fatal编程技术网

如何在python中将从PDF提取的文本格式化为json

如何在python中将从PDF提取的文本格式化为json,python,json,pypdf2,Python,Json,Pypdf2,我使用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件 输出应该类似于: #PurchaseOrder { } 我从pdf中获得的示例文本是: 佩斯会员软件 房子 4115低语松圈 德克萨斯州大草原75051 972 336 7141 56929268 采购订单 致: 华美华 A+投资 切鲁洛道1223号 肯塔基州列克星敦40507 [电话号码] 装运至: 颜桂冠 步调 会员仓库 4115低语松圈 德克萨斯州大草原75051 972 33

我使用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件

输出应该类似于:

#PurchaseOrder
{

}

我从pdf中获得的示例文本是:

佩斯会员软件 房子

4115低语松圈

德克萨斯州大草原75051

972 336 7141

56929268

采购订单

致:

华美华

A+投资

切鲁洛道1223号

肯塔基州列克星敦40507

[电话号码]

装运至:

颜桂冠

步调 会员仓库

4115低语松圈

德克萨斯州大草原75051

972 336 7141

邮政编码:

PO/18 19081

[采购订单编号必须为 出现在所有相关的 通信、航运 文件和发票]

订购日期

申购人

经由

离岸价点

条件

7/15/2006

数量

单位

描述

单价

总数 (新加坡元)

100.00

一,

连锁Drifit圆领,ILRN

13.50

1350.00

小计

1350.00

销售税

200.00

一,

请寄两份你的申请表 发票

二,

根据价格、条款和条件输入此订单, 交付方法和上述规格

三,

如果您不能按要求发货,请立即通知我们 指定的

四,

将所有信件发送至:

颜桂冠

4115低语松圈

格拉 德克萨斯州第二大草原75051号

972 336 7141

56929268

航运和装卸 G

其他

总数

1550.00

授权 颜桂冠


2006年7月15日

您已经提供了文本,编辑您的帖子以删除地址可能是个好主意

要回答您的问题,您必须逐行循环阅读此文本,记录所需的部分,并将其保存到json

若你们只想通过位置得到页面的子集,那个么这是以前问过的

您已经提供了文本,编辑您的帖子以删除地址可能是个好主意

要回答您的问题,您必须逐行循环阅读此文本,记录所需的部分,并将其保存到json

若你们只想通过位置得到页面的子集,那个么这是以前问过的

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"