Artificial intelligence 如何处理更改URL的web抓取

Artificial intelligence 如何处理更改URL的web抓取,artificial-intelligence,web-scraping,web-crawler,jsoup,Artificial Intelligence,Web Scraping,Web Crawler,Jsoup,下班很晚了,我一直在做一些关于网页抓取的工作。经过一些研究和分析,我可以掌握它。但我坚持了一些观点,即使在谷歌搜索之后,我也找不到合适的答案。我坚持的一点是,通过网页抓取,我使用登录用户和密码登录到内部网页面,对于代码中给定的URL,我能够获取数据,但当URL更改时,我的代码无法登录,原因是代码命中了错误的URL。现在,点击链接的代码是一种代理,它在刷新命令时点击URL 我想知道任何好的工具或一些书,可以帮助我了解如何将人工智能应用于网页抓取。有了它,我可以动态地处理我的代理,而无需手动重新配置

下班很晚了,我一直在做一些关于网页抓取的工作。经过一些研究和分析,我可以掌握它。但我坚持了一些观点,即使在谷歌搜索之后,我也找不到合适的答案。我坚持的一点是,通过网页抓取,我使用登录用户和密码登录到内部网页面,对于代码中给定的URL,我能够获取数据,但当URL更改时,我的代码无法登录,原因是代码命中了错误的URL。现在,点击链接的代码是一种代理,它在刷新命令时点击URL


我想知道任何好的工具或一些书,可以帮助我了解如何将人工智能应用于网页抓取。有了它,我可以动态地处理我的代理,而无需手动重新配置它。如果链接经常更改,您可以阅读从旧链接发送的标题,并查看是否有标题将您重定向到新链接

这些是html重定向代码

我不知道你用什么软件来刮,但我确信它可以处理重定向跟踪

例如:在用php编写的CURL中,以下代码用于跟踪重定向

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
//FROM http://stackoverflow.com/questions/3519939/make-curl-follow-redirects
回答你的要求

我想知道任何好的工具或一些书,可以帮助我 人工智能在网页抓取中的应用体会


PHP是一个很好的工具,可以理解基本的web抓取,但它的速度不如您想象的那么快。我知道最快的技术是ERLANG。但是它对新来者不是那么友好。

你要做的是让你的刮刀猜测新的链接。我说得对吗?是的,对,你知道吗?不,绝对没有。这就是为什么我投了更高的票。我真的很想在这里看到答案,但我不认为有一个简单的方法来解决这个问题。