Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/c/55.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript Python web抓取-从哪里开始_Javascript_Python_Selenium_Web Scraping - Fatal编程技术网

Javascript Python web抓取-从哪里开始

Javascript Python web抓取-从哪里开始,javascript,python,selenium,web-scraping,Javascript,Python,Selenium,Web Scraping,我正试图建立一个网络爬虫收集博彩数据从多个博彩网站。我有一些编程经验,但我在网页、网页抓取等领域非常迷茫 我以前曾使用Selenium构建“机器人”,我想我可以用它做点什么,我也读过一些教程(urllib,Beautiful Soup,等等),但所有这些教程都是非常简单的页面,我想要的页面似乎有些不同(可能是JavaScript?) 例如,此页面: 我怎样才能获得有几率的事件,等等?我发现这是一本很棒的书,它不假设有任何web抓取经验,只假设您了解python的基础知识 作者将带领您了解各种场

我正试图建立一个网络爬虫收集博彩数据从多个博彩网站。我有一些编程经验,但我在网页、网页抓取等领域非常迷茫

我以前曾使用Selenium构建“机器人”,我想我可以用它做点什么,我也读过一些教程(
urllib
,Beautiful Soup,等等),但所有这些教程都是非常简单的页面,我想要的页面似乎有些不同(可能是JavaScript?)

例如,此页面:

我怎样才能获得有几率的事件,等等?

我发现这是一本很棒的书,它不假设有任何web抓取经验,只假设您了解python的基础知识

作者将带领您了解各种场景,从简单的抓取一个基本的静态HTML页面,一直到Javascript/Ajax盛行的站点,这些站点可能有一些防止抓取的保护措施

一般来说,本书展示了使用
请求
模块下载和
美化组
模块解析html的示例

它还提供了一个示例,说明如何使脚本使用tor来隐藏IP地址


请注意,我与本书的卖家没有任何关联;只是我觉得这本书非常有用,听起来你也会的

“从哪里开始”不是一个合适的SO问题。那个网页看起来非常复杂,而且是js驱动的。从谷歌无头浏览器和浏览器自动化开始。selenium可能被网站屏蔽,因此您可能需要使用phantomjs或其他东西。更不用说法律方面:“网站上呈现的所有内容,包括但不限于文本、徽标、图形、图像、按钮图标和软件,均由SPORTSBET拥有或授权。除非SPORTSBET明确允许,否则禁止复制、打印和/或下载网站上发布的材料的任何部分。”