Python数据爬虫到MySQL数据库_Python_Mysql_Sql_Date_Web Crawler

Python数据爬虫到MySQL数据库

python mysql sql date web-crawler

Python数据爬虫到MySQL数据库,python,mysql,sql,date,web-crawler,Python,Mysql,Sql,Date,Web Crawler,我正在尝试检索页面源中类似以下内容的数据： “日期”：“2011-04-03T00:00:00.000Z”， “排名”：55182 }, { “日期”：“2011-04-10T00:00:00.000Z”， “排名”：23649 }, { “日期”：“2011-04-17T00:00:00.000Z”， “排名”：26064 }, { “日期”：“2011-04-24T00:00:00.000Z”， “等级”：18373 }, { “日期”：“2011-05-01T00:00:00.000Z”，

我正在尝试检索页面源中类似以下内容的数据： “日期”：“2011-04-03T00:00:00.000Z”， “排名”：55182 }, { “日期”：“2011-04-10T00:00:00.000Z”， “排名”：23649 }, { “日期”：“2011-04-17T00:00:00.000Z”， “排名”：26064 }, { “日期”：“2011-04-24T00:00:00.000Z”， “等级”：18373 }, { “日期”：“2011-05-01T00:00:00.000Z”， “等级”：18073 }, { “日期”：“2011-05-08T00:00:00.000Z”， “等级”：15539 }, { “日期”：“2011-05-15T00:00:00.000Z”， “排名”：14562 }, { “日期”：“2011-05-22T00:00:00.000Z”， “排名”：18921 }, { “日期”：“2011-05-29T00:00:00.000Z”， “排名”：10849 }, { “日期”：“2011-06-05T00:00:00.000Z”， “排名”：5871 }, { “日期”：“2011-06-12T00:00:00.000Z”， “等级”：3804 }, { “日期”：“2011-06-19T00:00:00.000Z”， “排名”：8243 }, { “日期”：“2011-06-26T00:00:00.000Z”， “排名”：9688 }, { “日期”：“2011-07-03T00:00:00.000Z”， “排名”：11592 }, { “日期”：“2011-07-10T00:00:00.000Z”， “排名”：11508 }, { “日期”：“2011-07-17T00:00:00.000Z”， “排名”：10405 }, { “日期”：“2011-07-24T00:00:00.000Z”， “排名”：10080 }, { “日期”：“2011-07-31T00:00:00.000Z”， “排名”：10392 }

我想使用Python爬虫从网站检索这些数据，我需要将数据存储在MYSql数据库中

我该怎么做呢？我需要根据数据库中的日期值存储52周。此外，该网站目前已安装验证码

我如何绕过验证码，我应该制作52列数据来存储它？

一个很好的尝试方法是使用urllib2：该网页可能使用cookies来检查您是否完成了验证码步骤，因此首先手动执行验证码部分，获取所有cookies等，并使用urllib模拟真实的浏览器和用户。如果这不起作用，那么您可以尝试绕过catpcha，例如查找一个json文件，该文件允许您将值（在url中）传递给服务器，然后服务器会将正确的json文件发送给您。

我实际上是使用Selenium或HTMLAgilityPack和正则表达式实现的。我检索了页面的DOM，然后使用正则表达式解析文档，直到找到所需的数据。完成后，数据存储在变量中并使用。我选择的语言是C#。

我需要自动化获取Json数据的过程。目前有800+链接，我必须从中获取数据。此外，链接中的数据每周更新一次。我需要一种基于特定日期条件存储链接的方法，然后为每个链接存储大约50个json值。