Python 将Excel或PDF中的非正统数据转换为熊猫_Python_Excel_Pdf_Pandas

Python 将Excel或PDF中的非正统数据转换为熊猫

python excel pdf pandas

Python 将Excel或PDF中的非正统数据转换为熊猫,python,excel,pdf,pandas,Python,Excel,Pdf,Pandas,我的PDF列出了机构的捐赠者名单；举个例子。我可以将它们转换为excel，从中可以得到如下内容：不用说，当我只做pd.read\u excel（filename）时，结果并不有趣有没有一个好方法，Pythonic方法将这些转换为如下格式： Name,Amount The City of New York,2000000 The State of New York,2000000 United States Department of Transportation,2000000 Micha

我的PDF列出了机构的捐赠者名单；举个例子。我可以将它们转换为excel，从中可以得到如下内容：

不用说，当我只做

pd.read\u excel（filename）

时，结果并不有趣

有没有一个好方法，Pythonic方法将这些转换为如下格式：

Name,Amount
The City of New York,2000000
The State of New York,2000000
United States Department of Transportation,2000000
Michael R. Bloomberg,2000000
...
Ronnie and Lawrence D. Ackman,1000000
American Express,1000000

为什么不在excel中修改格式，使其成为表格格式呢？然后，您可以在excel中进行分析，也可以导出到csv并使用pandas/R进行分析？看起来用鼠标复制和超越周围的一切会更快，这就是我目前正在做的事情，但是有100多个pdf非常相似，我想知道是否有人能为我指明编写脚本的方法方向。你可以尝试一个pdf 2文本转换器（例如）。然后在python中，您可以逐行读取文本，并尝试将其转换为常规格式。如果PDF不遵循相同的格式，这将不会有多大帮助。