Python 无法从此url提取数据
这是我在这里的第一篇文章。我已经5个月没有自己从头开始学习python了,多亏了这个论坛,我获得了大部分知识,现在我能够创建Webbot,它可以轻松获取所有类型的数据,特别是在体育博彩网站上 尽管出于这种特殊需要,有一个网站我无法从中提取我正在寻找的内容: 我想获得所有足球赛事的所有链接(例如,在左侧:Python 无法从此url提取数据,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,这是我在这里的第一篇文章。我已经5个月没有自己从头开始学习python了,多亏了这个论坛,我获得了大部分知识,现在我能够创建Webbot,它可以轻松获取所有类型的数据,特别是在体育博彩网站上 尽管出于这种特殊需要,有一个网站我无法从中提取我正在寻找的内容: 我想获得所有足球赛事的所有链接(例如,在左侧: "https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014" 但是当我查看源代码,或者打印我的汤时,我什么也得不到 url
"https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014"
但是当我查看源代码,或者打印我的汤时,我什么也得不到
url = "https://www.winamax.fr/paris-sportifs#!/sports"
urlRequest = requests.get(url, proxies=proxies, headers=headers)
#of course, proxies and headers are defined beforehand
soup = BeautifulSoup(urlRequest.content)
print(soup)
对于我已经想到的所有收受赌注者来说,总是有一个简单的html树结构,其中所有项目都很容易找到,或者有一个隐藏的javascript文件,或者一个json链接。
但是对于这一个,即使当我试图用Firebug捕捉流量时,我也找不到任何相关的东西
如果有人对如何获得它有想法,请提前感谢(我考虑过使用PhantomJS,但还没有尝试过)
编辑:
@桑达拉吉:
下面的标题与我在所有项目中使用的标题相同,因此在我看来并不相关,但无论如何,这里是:
AgentsFile='UserAgents.txt'
lines = open(AgentsFile).read().splitlines()
myline =random.choice(lines)
headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'gzip,deflate,sdch',
'Accept-Language':'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Referer' : 'https://www.winamax.fr',
'User-Agent': myline}
编辑2:
@克里斯·李尔
使用firebug,在网络面板中,您可以搜索所有 响应主体(有一个称为“响应主体”的复选框 单击搜索框时显示)。这将显示 数据正在通过json获取。我将让您尝试理解 它可以,但这可能会给您一个开始(搜索ID可能很困难) (最佳) 我勾选了上面提到的框,但没有效果:( 无论是否使用过滤器,“我的网络”面板中都不会显示任何内容,如图所示:
使用firebug并找出原因。 使用参数向发出POST请求:
- 键=050e42fb0761c96526e8510eda89248f
- lang=FR
不知道密钥是否正在更改,但现在它可以工作。使用firebug并找出这一点。 使用参数向发出POST请求:
- 键=050e42fb0761c96526e8510eda89248f
- lang=FR
不知道密钥是否正在更改,但现在它可以工作。您可以编辑您的问题以包含标题吗?使用firebug,在网络面板中,您可以搜索所有响应正文(单击搜索框时会出现一个名为“响应正文”的复选框)。这将向您显示数据是通过json获取的。我将让您尝试理解它,但这可能会给您一个开始(搜索ID可能是最好的)您可以编辑您的问题以包括标题吗?使用firebug,在网络面板中,您可以搜索所有响应主体(有一个称为“响应主体”的复选框)当您单击搜索框时会显示)。这将显示数据是通过json获取的。我将让您尝试理解它,但这可能会给您一个开始(搜索ID可能是最好的)谢谢你,Radek,但不巧的是,滑块url只涉及3或4个自行车图像的旋转木马,对应于一些体育赛事…仍然不是我想要的(整个赛事列表)谢谢你,Radek,但不巧的是,滑块url只涉及3或4个自行车图像的旋转木马,对应于一些体育赛事…仍然不是我想要的(整个赛事列表)