Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 无法从此url提取数据_Python_Web Scraping_Beautifulsoup - Fatal编程技术网

Python 无法从此url提取数据

Python 无法从此url提取数据,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,这是我在这里的第一篇文章。我已经5个月没有自己从头开始学习python了,多亏了这个论坛,我获得了大部分知识,现在我能够创建Webbot,它可以轻松获取所有类型的数据,特别是在体育博彩网站上 尽管出于这种特殊需要,有一个网站我无法从中提取我正在寻找的内容: 我想获得所有足球赛事的所有链接(例如,在左侧: "https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014" 但是当我查看源代码,或者打印我的汤时,我什么也得不到 url

这是我在这里的第一篇文章。我已经5个月没有自己从头开始学习python了,多亏了这个论坛,我获得了大部分知识,现在我能够创建Webbot,它可以轻松获取所有类型的数据,特别是在体育博彩网站上

尽管出于这种特殊需要,有一个网站我无法从中提取我正在寻找的内容:

我想获得所有足球赛事的所有链接(例如,在左侧:

"https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014"
但是当我查看源代码,或者打印我的汤时,我什么也得不到

url = "https://www.winamax.fr/paris-sportifs#!/sports"
urlRequest = requests.get(url, proxies=proxies, headers=headers)
#of course, proxies and headers are defined beforehand
soup = BeautifulSoup(urlRequest.content)
print(soup)
对于我已经想到的所有收受赌注者来说,总是有一个简单的html树结构,其中所有项目都很容易找到,或者有一个隐藏的javascript文件,或者一个json链接。 但是对于这一个,即使当我试图用Firebug捕捉流量时,我也找不到任何相关的东西

如果有人对如何获得它有想法,请提前感谢(我考虑过使用PhantomJS,但还没有尝试过)

编辑:

@桑达拉吉: 下面的标题与我在所有项目中使用的标题相同,因此在我看来并不相关,但无论如何,这里是:

AgentsFile='UserAgents.txt'
lines = open(AgentsFile).read().splitlines()
myline =random.choice(lines)
headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Accept-Encoding':'gzip,deflate,sdch',
    'Accept-Language':'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
    'Referer' : 'https://www.winamax.fr',
    'User-Agent': myline}
编辑2:

@克里斯·李尔


使用firebug,在网络面板中,您可以搜索所有 响应主体(有一个称为“响应主体”的复选框 单击搜索框时显示)。这将显示 数据正在通过json获取。我将让您尝试理解 它可以,但这可能会给您一个开始(搜索ID可能很困难) (最佳)

我勾选了上面提到的框,但没有效果:( 无论是否使用过滤器,“我的网络”面板中都不会显示任何内容,如图所示:


使用firebug并找出原因。 使用参数向发出POST请求:

  • 键=050e42fb0761c96526e8510eda89248f
  • lang=FR

不知道密钥是否正在更改,但现在它可以工作。

使用firebug并找出这一点。 使用参数向发出POST请求:

  • 键=050e42fb0761c96526e8510eda89248f
  • lang=FR

不知道密钥是否正在更改,但现在它可以工作。

您可以编辑您的问题以包含标题吗?使用firebug,在网络面板中,您可以搜索所有响应正文(单击搜索框时会出现一个名为“响应正文”的复选框)。这将向您显示数据是通过json获取的。我将让您尝试理解它,但这可能会给您一个开始(搜索ID可能是最好的)您可以编辑您的问题以包括标题吗?使用firebug,在网络面板中,您可以搜索所有响应主体(有一个称为“响应主体”的复选框)当您单击搜索框时会显示)。这将显示数据是通过json获取的。我将让您尝试理解它,但这可能会给您一个开始(搜索ID可能是最好的)谢谢你,Radek,但不巧的是,滑块url只涉及3或4个自行车图像的旋转木马,对应于一些体育赛事…仍然不是我想要的(整个赛事列表)谢谢你,Radek,但不巧的是,滑块url只涉及3或4个自行车图像的旋转木马,对应于一些体育赛事…仍然不是我想要的(整个赛事列表)