如何在python中将从PDF提取的文本格式化为json
我使用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件 输出应该类似于:如何在python中将从PDF提取的文本格式化为json,python,json,pypdf2,Python,Json,Pypdf2,我使用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件 输出应该类似于: #PurchaseOrder { } 我从pdf中获得的示例文本是: 佩斯会员软件 房子 4115低语松圈 德克萨斯州大草原75051 972 336 7141 56929268 采购订单 致: 华美华 A+投资 切鲁洛道1223号 肯塔基州列克星敦40507 [电话号码] 装运至: 颜桂冠 步调 会员仓库 4115低语松圈 德克萨斯州大草原75051 972 33
#PurchaseOrder
{
}
我从pdf中获得的示例文本是:
佩斯会员软件
房子
4115低语松圈
德克萨斯州大草原75051
972
336
7141
56929268
采购订单
致:
华美华
A+投资
切鲁洛道1223号
肯塔基州列克星敦40507
[电话号码]
装运至:
颜桂冠
步调
会员仓库
4115低语松圈
德克萨斯州大草原75051
972
336
7141
邮政编码:
PO/18
19081
[采购订单编号必须为
出现在所有相关的
通信、航运
文件和发票]
订购日期
申购人
经由
离岸价点
条件
7/15/2006
数量
单位
描述
单价
总数
(新加坡元)
100.00
一,
连锁Drifit圆领,ILRN
13.50
1350.00
小计
1350.00
销售税
200.00
一,
请寄两份你的申请表
发票
二,
根据价格、条款和条件输入此订单,
交付方法和上述规格
三,
如果您不能按要求发货,请立即通知我们
指定的
四,
将所有信件发送至:
颜桂冠
4115低语松圈
格拉
德克萨斯州第二大草原75051号
972
336
7141
56929268
航运和装卸
G
其他
总数
1550.00
授权
颜桂冠
2006年7月15日您已经提供了文本,编辑您的帖子以删除地址可能是个好主意 要回答您的问题,您必须逐行循环阅读此文本,记录所需的部分,并将其保存到json 若你们只想通过位置得到页面的子集,那个么这是以前问过的
您已经提供了文本,编辑您的帖子以删除地址可能是个好主意 要回答您的问题,您必须逐行循环阅读此文本,记录所需的部分,并将其保存到json 若你们只想通过位置得到页面的子集,那个么这是以前问过的
"doctype":"PO",
"orderingcompany":"Demo Company",
"suppliercompany":"Demo Company",
"shipto":"Test Customer",
"ponum":"PO1234",
"podate":"01-01-2019",
"totalamount":"$1234.50",
"currency":"SGD"