Python数据爬虫到MySQL数据库

Python数据爬虫到MySQL数据库,python,mysql,sql,date,web-crawler,Python,Mysql,Sql,Date,Web Crawler,我正在尝试检索页面源中类似以下内容的数据: “日期”:“2011-04-03T00:00:00.000Z”, “排名”:55182 }, { “日期”:“2011-04-10T00:00:00.000Z”, “排名”:23649 }, { “日期”:“2011-04-17T00:00:00.000Z”, “排名”:26064 }, { “日期”:“2011-04-24T00:00:00.000Z”, “等级”:18373 }, { “日期”:“2011-05-01T00:00:00.000Z”,

我正在尝试检索页面源中类似以下内容的数据: “日期”:“2011-04-03T00:00:00.000Z”, “排名”:55182 }, { “日期”:“2011-04-10T00:00:00.000Z”, “排名”:23649 }, { “日期”:“2011-04-17T00:00:00.000Z”, “排名”:26064 }, { “日期”:“2011-04-24T00:00:00.000Z”, “等级”:18373 }, { “日期”:“2011-05-01T00:00:00.000Z”, “等级”:18073 }, { “日期”:“2011-05-08T00:00:00.000Z”, “等级”:15539 }, { “日期”:“2011-05-15T00:00:00.000Z”, “排名”:14562 }, { “日期”:“2011-05-22T00:00:00.000Z”, “排名”:18921 }, { “日期”:“2011-05-29T00:00:00.000Z”, “排名”:10849 }, { “日期”:“2011-06-05T00:00:00.000Z”, “排名”:5871 }, { “日期”:“2011-06-12T00:00:00.000Z”, “等级”:3804 }, { “日期”:“2011-06-19T00:00:00.000Z”, “排名”:8243 }, { “日期”:“2011-06-26T00:00:00.000Z”, “排名”:9688 }, { “日期”:“2011-07-03T00:00:00.000Z”, “排名”:11592 }, { “日期”:“2011-07-10T00:00:00.000Z”, “排名”:11508 }, { “日期”:“2011-07-17T00:00:00.000Z”, “排名”:10405 }, { “日期”:“2011-07-24T00:00:00.000Z”, “排名”:10080 }, { “日期”:“2011-07-31T00:00:00.000Z”, “排名”:10392 }

我想使用Python爬虫从网站检索这些数据,我需要将数据存储在MYSql数据库中

我该怎么做呢? 我需要根据数据库中的日期值存储52周。 此外,该网站目前已安装验证码


我如何绕过验证码,我应该制作52列数据来存储它?

一个很好的尝试方法是使用urllib2:该网页可能使用cookies来检查您是否完成了验证码步骤,因此首先手动执行验证码部分,获取所有cookies等,并使用urllib模拟真实的浏览器和用户。如果这不起作用,那么您可以尝试绕过catpcha,例如查找一个json文件,该文件允许您将值(在url中)传递给服务器,然后服务器会将正确的json文件发送给您。

我实际上是使用Selenium或HTMLAgilityPack和正则表达式实现的。我检索了页面的DOM,然后使用正则表达式解析文档,直到找到所需的数据。完成后,数据存储在变量中并使用。我选择的语言是C#。

我需要自动化获取Json数据的过程。目前有800+链接,我必须从中获取数据。此外,链接中的数据每周更新一次。我需要一种基于特定日期条件存储链接的方法,然后为每个链接存储大约50个json值。