Web scraping 我怎样才能抓到谷歌?

Web scraping 我怎样才能抓到谷歌?,web-scraping,Web Scraping,如何在google.com中获取HTML 比如说,我去谷歌输入“Humpty Dumpty”,我会得到搜索结果,URL会更改为: 但是当我试图下载这个网页时,里面没有任何HTML搜索结果。我想这是因为谷歌在页面加载后请求搜索结果 有什么方法可以得到HTML吗 附言:我知道从谷歌抓取是违反他们的TOS的。我正在努力学习如何刮这样的网站 使用下面的代码,我看到正确的HTML又回来了(关于童谣的东西回来了) 下面的代码使用WebClient检索正确的HTML WebClient wbclient =

如何在google.com中获取HTML

比如说,我去谷歌输入“Humpty Dumpty”,我会得到搜索结果,URL会更改为:

但是当我试图下载这个网页时,里面没有任何HTML搜索结果。我想这是因为谷歌在页面加载后请求搜索结果

有什么方法可以得到HTML吗


附言:我知道从谷歌抓取是违反他们的TOS的。我正在努力学习如何刮这样的网站

使用下面的代码,我看到正确的HTML又回来了(关于童谣的东西回来了)

下面的代码使用WebClient检索正确的HTML

WebClient wbclient = new WebClient();
string html = wbclient.DownloadString("https://www.google.com/search?newwindow=1&q=humpty+dumpty&oq=humtp&gs_l=serp.3.0.0i10l10.7599.8190.0.9757.5.5.0.0.0.0.373.732.3j1j0j1.5.0....0...1c.1.30.serp..2.3.187.2B69R71ux4U");

为什么投反对票?这是题外话吗?使用F12开发工具来了解交互式网页是如何工作的。@Ben:你知道它们是如何工作的吗?“那为什么不和我分享呢?”杰克,他们可以用很多不同的方式工作。如果您使用F12开发者工具上的“网络”选项卡,您可以看到此工具的工作原理。不要对你想帮助你的人无礼。试着关闭浏览器中的JavaScript,然后再次使用谷歌——它会以一种更简单的方式运行。它将返回到一个标准的GET表单,可以用一种更简单的方式进行刮取。谢谢。有趣。前几天,我看到了一些JSON文件,而不是实际的HTML。我只是再次尝试了一下(使用HttpWebRequest),相同的HTML回来了。我最初确实认为,不设置任何请求头意味着谷歌会知道它不是一个请求数据的浏览器,但这似乎并没有打扰它。您有哪些代码不起作用?你能用它更新这个问题吗?