Python:将数据列转换为电子表格

Python:将数据列转换为电子表格,python,csv,text,Python,Csv,Text,我是一名统计学家,对Python有些陌生。我有一个文本文档,看起来像: 逮捕#1 逮捕日期 2011年8月1日 性 男性 收费 攻击 逮捕#2 逮捕日期 2011年1月13日 性 收费 偏差 侵入 逮捕#3…. 我想将其转换为以下形式: 逮捕性指控 1次男性袭击 2缺失 越轨侵入 3 我可以使用正则表达式来提取介于逮捕日期和性别之间的文本,但我不知道如何对每次逮捕执行这些操作。这是我经常遇到的一个问题,因为警察部门往往会交出PDF(然后我会将其转换为上述格式的tex文件),而不是电子表格,因此任

我是一名统计学家,对Python有些陌生。我有一个文本文档,看起来像:

逮捕#1
逮捕日期
2011年8月1日

男性
收费
攻击

逮捕#2
逮捕日期
2011年1月13日

收费
偏差
侵入

逮捕#3….

我想将其转换为以下形式:

逮捕性指控
1次男性袭击
2缺失 越轨侵入
3

我可以使用正则表达式来提取介于逮捕日期和性别之间的文本,但我不知道如何对每次逮捕执行这些操作。这是我经常遇到的一个问题,因为警察部门往往会交出PDF(然后我会将其转换为上述格式的tex文件),而不是电子表格,因此任何帮助都将不胜感激


1)使用regex.findall或split()命令将原始数据拆分为列表

2) 循环浏览你的列表,取出重要信息,放入字典,并将其附加到列表中。(你想要一份字典清单,[{“逮捕”:1,“日期”:2011年8月1日,“性”:“男性”,“指控”:“攻击”},{},{}…]


3) 打开一个txt文件和writerows,big_list[0]{'Restrict'},big_list[0]{'date'},等等

>警察部门倾向于交PDF,而不是电子表格
你在问python是否可以在PDF上运行正则表达式?我不这么认为。无论如何,这不是你所期望的。对不起,我的问题模棱两可。最初的PDF看起来一点也不像电子表格,我认为这是有意的。当我将PDF转换为文本文档时,我在文本编辑器中得到一长列数据。我认为这在我们这些像我这样的人中是很常见的,他们要求政府机构提供大量数据和Python代码,解释如何将一列数据转换成电子表格,我认为这非常有用。