Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/311.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何从网站中提取XHR响应数据?_Python_Python 3.x_Request_Xmlhttprequest - Fatal编程技术网

Python 如何从网站中提取XHR响应数据?

Python 如何从网站中提取XHR响应数据?,python,python-3.x,request,xmlhttprequest,Python,Python 3.x,Request,Xmlhttprequest,我想获得一个链接到一种json文档,一些网页在加载后下载。例如: 但它可以是一个非常不同的文件。 不幸的是,我在Beautfiul soup的源页面中找不到链接 到目前为止,我试过: import requests import json data = { "Device[udid]": "", "API_KEY": "", "API_SECRET": "", "Device[change]": "", "fbToken": "" } headers = { "Us

我想获得一个链接到一种json文档,一些网页在加载后下载。例如:

但它可以是一个非常不同的文件。 不幸的是,我在Beautfiul soup的源页面中找不到链接

到目前为止,我试过:

import requests
import json

data = {
  "Device[udid]": "",
  "API_KEY": "",
  "API_SECRET": "",
  "Device[change]": "",
  "fbToken": ""
}

headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"
}

url = "https://data.electionsportal.ge/en/event_type/1/event/38/shape/69898/shape_type/1?data_type=official"

r = requests.post(url, data=data, headers=headers)
data = r.json()
但它返回一个json解码错误:

---------------------------------------------------------------------------
JSONDecodeError                           Traceback (most recent call last)
<ipython-input-72-189954289109> in <module>
     17 
     18 r = requests.post(url, data=data, headers=headers)
---> 19 data = r.json()
     20 

C:\ProgramData\Anaconda3\lib\site-packages\requests\models.py in json(self, **kwargs)
    895                     # used.
    896                     pass
--> 897         return complexjson.loads(self.text, **kwargs)
    898 
    899     @property

C:\ProgramData\Anaconda3\lib\json\__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    346             parse_int is None and parse_float is None and
    347             parse_constant is None and object_pairs_hook is None and not kw):
--> 348         return _default_decoder.decode(s)
    349     if cls is None:
    350         cls = JSONDecoder

C:\ProgramData\Anaconda3\lib\json\decoder.py in decode(self, s, _w)
    335 
    336         """
--> 337         obj, end = self.raw_decode(s, idx=_w(s, 0).end())
    338         end = _w(s, end).end()
    339         if end != len(s):

C:\ProgramData\Anaconda3\lib\json\decoder.py in raw_decode(self, s, idx)
    353             obj, end = self.scan_once(s, idx)
    354         except StopIteration as err:
--> 355             raise JSONDecodeError("Expecting value", s, err.value) from None
    356         return obj, end

JSONDecodeError: Expecting value: line 1 column 1 (char 0)
---------------------------------------------------------------------------
JSONDecodeError回溯(最近一次调用)
在里面
17
18 r=requests.post(url,data=data,headers=headers)
--->19 data=r.json()
20
json格式的C:\ProgramData\Anaconda3\lib\site packages\requests\models.py(self,**kwargs)
895已使用。
896通行证
-->897返回complexjson.load(self.text,**kwargs)
898
899@property
C:\ProgramData\Anaconda3\lib\json\\uuuuu init\uuuuuuuuu.py加载(s、编码、cls、对象钩子、解析浮点数、解析整型、解析常数、对象对钩子,**kw)
346 parse_int为无,parse_float为无且
347 parse_常量为None且对象_pairs_hook为None且非kw):
-->348返回默认解码器。解码
349如果cls为无:
350 cls=JSONDecoder
解码中的C:\ProgramData\Anaconda3\lib\json\decoder.py(self,s,_w)
335
336         """
-->337 obj,end=self.raw\u decode(s,idx=\u w(s,0.end())
338 end=_w(s,end).end()
339如果结束!=长度:
原始解码中的C:\ProgramData\Anaconda3\lib\json\decoder.py(self、s、idx)
353 obj,end=自扫描一次(s,idx)
354除了停止迭代作为错误:
-->355将JSONDecodeError(“预期值”,s,err.value)从None提升
356返回obj,结束
JSONDecodeError:应为值:第1行第1列(字符0)
您试图在HTML内容中查找的标记由客户端通过javascript和XMLHttpRequests加载。这意味着您将无法使用BeautifulSoup在HTML中查找包含URL的标记,该标记位于
块内或外部加载

此外,您正在尝试将HTML编写的网页转换为JSON,并尝试访问网页或JSON内容中未定义的密钥(coins)

解决方案

  • 直接加载该JSON,而无需尝试在上述网站中使用BeautifulSoup查找JSON URL。这样,您就可以完美地运行
    requests.JSON()

  • 否则,请注意,它是一个允许您运行javascript的web驱动程序

  • 希望这能解决问题。

    您试图在HTML内容中查找的标记由客户端通过javascript和XMLHttpRequests加载。这意味着您将无法使用BeautifulSoup在HTML中查找包含URL的标记,它位于
    块内或外部加载

    此外,您正在尝试将HTML编写的网页转换为JSON,并尝试访问网页或JSON内容中未定义的密钥(coins)

    解决方案

  • 直接加载该JSON,而无需尝试在上述网站中使用BeautifulSoup查找JSON URL。这样,您就可以完美地运行
    requests.JSON()

  • 否则,请注意,它是一个允许您运行javascript的web驱动程序


  • 希望这能澄清问题。

    这适用于您文章中的两个链接:

    from bs4 import BeautifulSoup
    import requests
    url = 'https://data.electionsportal.ge/en/event_type/1/event/38/shape/69898/shape_type/1?data_type=official'
    r = requests.get(url)
    soup = BeautifulSoup(r.text)
    splits = [item.split('=',1)[-1] for item in str(soup.script).split(';')]
    filtered_splits = [item.replace('"','') for item in splits if 'json' in item and not 'xxx' in item]
    links_to_jsons = ["https://data.electionsportal.ge" + item for item in    filtered_splits]
    for item in links_to_jsons:
       r = requests.get(item)
       print(r.json())       # change as you want      
    

    顺便说一句,我猜您可以通过将数字69898更改为另一个网页中位置类似的数字(但仍然是data.electionportal.ge)来构建json链接。

    这适用于您文章中的两个链接:

    from bs4 import BeautifulSoup
    import requests
    url = 'https://data.electionsportal.ge/en/event_type/1/event/38/shape/69898/shape_type/1?data_type=official'
    r = requests.get(url)
    soup = BeautifulSoup(r.text)
    splits = [item.split('=',1)[-1] for item in str(soup.script).split(';')]
    filtered_splits = [item.replace('"','') for item in splits if 'json' in item and not 'xxx' in item]
    links_to_jsons = ["https://data.electionsportal.ge" + item for item in    filtered_splits]
    for item in links_to_jsons:
       r = requests.get(item)
       print(r.json())       # change as you want      
    

    顺便说一句,我猜您可以通过将数字69898更改为另一个网页中类似位置的数字(但仍然是data.electionportal.ge)来构建json链接.

    是的,很抱歉关于
    coins
    ,这是一个不应该留在那里的遗留测试。我如何用Python自动加载json?我想用一个脚本来完成,因为我想在几页上完成。是的,很抱歉关于
    coins
    ,这是一个我不应该呆在那里。我怎样才能用Python自动加载json?我想用一个脚本,因为我想在几个页面上这样做。