Web crawler 爬网的html与浏览器中的不同

Web crawler 爬网的html与浏览器中的不同,web-crawler,Web Crawler,我使用WebHarvest获取HTMLs,但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号 HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML,这仍然不起作用 我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点?这个问题很常见,通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码,这是最常见的现象。元素的代码已

我使用WebHarvest获取HTMLs,但我发现我得到的与我浏览器中的略有不同。html中的两个数字被替换为用WebHarvest爬网的html中的破折号

HTMLs的所有其他内容都是相同的。即使我用Java代码替换WebHarvest的http语句来请求HTML,这仍然不起作用


我保证浏览器中的URL和web harvest中http请求中的URL相同。我如何才能做到这一点?

这个问题很常见,通常与CSS相关的内容存在问题。主要原因是 1.元素不同于web源代码,这是最常见的现象。元素的代码已由JS呈现。这是正常的,这是不同的。你可以查看谷歌主页的元素和源代码,这与下图明显不同。这应该以网页源代码为标准。 2.异步问题。
3.如果网页的源代码与爬虫程序的源代码不同,则可能是由于反爬虫造成的

很明显,您不太了解webharvest实际如何处理http请求。请阅读post和get请求以及UserAgent。许多网站会在最新版本的Chrome、古老的InternetExplorer 6或移动设备上显示不同的html,返回的html是不同的方式发布代码片段,并说明您迄今为止尝试的内容,指定您正在使用的程序。请阅读: