如何使用python从github正确下载json文件

如何使用python从github正确下载json文件,python,json,python-3.x,pandas,beautifulsoup,Python,Json,Python 3.x,Pandas,Beautifulsoup,我正在尝试下载一个json文件,该文件托管在某个github repo中。这是我的建议 问题是,当我尝试用python解码json时,出现了以下错误: JSONDecodeError:期望值:第1行第1列(字符0) 这听起来像是不正确的json格式,所以我在编辑器中手动打开文件时看到: 这不是一个json文件,但应该是这样的。相反,我得到的是这个树结构的文件。我需要使用pandas将其加载到数据帧中。谁能给我指一下这里的正确方向吗?我做错了什么 这是我用来获取该文件的代码: import ur

我正在尝试下载一个json文件,该文件托管在某个github repo中。这是我的建议

问题是,当我尝试用python解码json时,出现了以下错误:

JSONDecodeError:期望值:第1行第1列(字符0)

这听起来像是不正确的json格式,所以我在编辑器中手动打开文件时看到:

这不是一个json文件,但应该是这样的。相反,我得到的是这个树结构的文件。我需要使用
pandas
将其加载到
数据帧中。谁能给我指一下这里的正确方向吗?我做错了什么

这是我用来获取该文件的代码:

import urllib.request as r
from bs4 import BeautifulSoup as bs
import json

url = r.urlopen("https://raw.githubusercontent.com/aavail/ai-workflow-capstone/master/cs-train/invoices-2017-11.json")
content = url.read()
soup = bs(content)
newDictionary=json.loads(str(soup))
事先非常感谢

相反,我得到的是这个树结构的文件

不,我保证你会得到一个JSON文件;)。树状结构表示是您的浏览器,使文件看起来很漂亮。如果您
curl-XGET-L
,您将看到一个JSON字符串

Pandas允许您直接从URL读取JSON:

>>将熊猫作为pd导入
>>>url=”https://raw.githubusercontent.com/aavail/ai-workflow-capstone/master/cs-train/invoices-2017-11.json"
>>>df=pd.read_json(url)
>>>df.head()
国家/地区客户\u id发票价格流\u id次数\u查看的年/月/日
0英国13085.0 489434 6.95 85048 12 2017 11 28
1英国NaN 489597 8.65 22130 1 2017 11 28
2英国NaN 489597 1.70 221326 2017 11 28
3英国NaN 489597 1.70 221334 2017 11 28
4英国NaN 489597 0.87 221341 2017 11 28

恭喜你!1000代表。谢谢@AnnZen!!:D