Web crawler 爬网的html与浏览器中的不同_Web Crawler

Web crawler 爬网的html与浏览器中的不同

web-crawler

Web crawler 爬网的html与浏览器中的不同,web-crawler,Web Crawler,我使用WebHarvest获取HTMLs，但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号 HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML，这仍然不起作用我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点？这个问题很常见，通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码，这是最常见的现象。元素的代码已

我使用WebHarvest获取HTMLs，但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号

HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML，这仍然不起作用

我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点？

这个问题很常见，通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码，这是最常见的现象。元素的代码已由JS呈现。这是正常的，这是不同的。你可以查看谷歌主页的元素和源代码，这与下图明显不同。这应该以网页源代码为标准。 2.异步问题。

3.如果网页的源代码与爬虫程序的源代码不同，则可能是由于反爬虫造成的

很明显，您不太了解webharvest实际如何处理http请求。请阅读post和get请求以及UserAgent。许多网站会在最新版本的Chrome、古老的InternetExplorer 6或移动设备上显示不同的html，返回的html是不同的方式发布代码片段，并说明您迄今为止尝试的内容，指定您正在使用的程序。请阅读：