Artificial intelligence 如何处理更改URL的web抓取
下班很晚了,我一直在做一些关于网页抓取的工作。经过一些研究和分析,我可以掌握它。但我坚持了一些观点,即使在谷歌搜索之后,我也找不到合适的答案。我坚持的一点是,通过网页抓取,我使用登录用户和密码登录到内部网页面,对于代码中给定的URL,我能够获取数据,但当URL更改时,我的代码无法登录,原因是代码命中了错误的URL。现在,点击链接的代码是一种代理,它在刷新命令时点击URLArtificial intelligence 如何处理更改URL的web抓取,artificial-intelligence,web-scraping,web-crawler,jsoup,Artificial Intelligence,Web Scraping,Web Crawler,Jsoup,下班很晚了,我一直在做一些关于网页抓取的工作。经过一些研究和分析,我可以掌握它。但我坚持了一些观点,即使在谷歌搜索之后,我也找不到合适的答案。我坚持的一点是,通过网页抓取,我使用登录用户和密码登录到内部网页面,对于代码中给定的URL,我能够获取数据,但当URL更改时,我的代码无法登录,原因是代码命中了错误的URL。现在,点击链接的代码是一种代理,它在刷新命令时点击URL 我想知道任何好的工具或一些书,可以帮助我了解如何将人工智能应用于网页抓取。有了它,我可以动态地处理我的代理,而无需手动重新配置
我想知道任何好的工具或一些书,可以帮助我了解如何将人工智能应用于网页抓取。有了它,我可以动态地处理我的代理,而无需手动重新配置它。如果链接经常更改,您可以阅读从旧链接发送的标题,并查看是否有标题将您重定向到新链接 这些是html重定向代码 我不知道你用什么软件来刮,但我确信它可以处理重定向跟踪 例如:在用php编写的CURL中,以下代码用于跟踪重定向
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
//FROM http://stackoverflow.com/questions/3519939/make-curl-follow-redirects
回答你的要求
我想知道任何好的工具或一些书,可以帮助我
人工智能在网页抓取中的应用体会
PHP是一个很好的工具,可以理解基本的web抓取,但它的速度不如您想象的那么快。我知道最快的技术是ERLANG。但是它对新来者不是那么友好。你要做的是让你的刮刀猜测新的链接。我说得对吗?是的,对,你知道吗?不,绝对没有。这就是为什么我投了更高的票。我真的很想在这里看到答案,但我不认为有一个简单的方法来解决这个问题。