Python 将Excel或PDF中的非正统数据转换为熊猫

Python 将Excel或PDF中的非正统数据转换为熊猫,python,excel,pdf,pandas,Python,Excel,Pdf,Pandas,我的PDF列出了机构的捐赠者名单;举个例子。我可以将它们转换为excel,从中可以得到如下内容: 不用说,当我只做pd.read\u excel(filename)时,结果并不有趣 有没有一个好方法,Pythonic方法将这些转换为如下格式: Name,Amount The City of New York,2000000 The State of New York,2000000 United States Department of Transportation,2000000 Micha

我的PDF列出了机构的捐赠者名单;举个例子。我可以将它们转换为excel,从中可以得到如下内容:

不用说,当我只做
pd.read\u excel(filename)
时,结果并不有趣

有没有一个好方法,Pythonic方法将这些转换为如下格式:

Name,Amount
The City of New York,2000000
The State of New York,2000000
United States Department of Transportation,2000000
Michael R. Bloomberg,2000000
...
Ronnie and Lawrence D. Ackman,1000000
American Express,1000000

为什么不在excel中修改格式,使其成为表格格式呢?然后,您可以在excel中进行分析,也可以导出到csv并使用pandas/R进行分析?看起来用鼠标复制和超越周围的一切会更快,这就是我目前正在做的事情,但是有100多个pdf非常相似,我想知道是否有人能为我指明编写脚本的方法方向。你可以尝试一个pdf 2文本转换器(例如)。然后在python中,您可以逐行读取文本,并尝试将其转换为常规格式。如果PDF不遵循相同的格式,这将不会有多大帮助。