C# 使用Java脚本或Web表单对网站进行爬网
我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站,其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的,我只是不知道如何爬行。现在,这些网站不显示实际的HTML页面。我的意思是,如果我在IE或firefox中浏览该页面,HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上,我不太熟悉web开发,所以如果我错了,请纠正我 我的问题是,有没有像我现在这样的人成功地解决了这些“挑战”?有人知道某本关于网络爬虫的书或文章吗?那些属于这些高级类型的网站C# 使用Java脚本或Web表单对网站进行爬网,c#,javascript,windows,webforms,C#,Javascript,Windows,Webforms,我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站,其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的,我只是不知道如何爬行。现在,这些网站不显示实际的HTML页面。我的意思是,如果我在IE或firefox中浏览该页面,HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上,我不太熟悉web开发,所以如果我错了,请纠正我 我的问题是,有没有像
谢谢。这里有两个不同的问题 形式 根据经验,爬虫不会触摸表单 为一个特定的网站编写一些东西可能是合适的,该网站提交预先确定的(或半随机的)数据(特别是在为您自己的web应用程序编写自动测试时),但一般的爬虫程序应该让它们保持独立 描述如何提交表单数据的规范可以在上找到,可能有一个C#库可以提供帮助 JavaScript JavaScript是一个相当复杂的野兽 有三种常见的处理方法:
我发现了一篇关于deepweb的文章,它非常有趣,我认为这回答了我上面的问题
我一定很喜欢这一点。可以直接处理javascript。不过这不是免费的。你好,大卫,谢谢你的信息。这是一个好的开始。你提到了一个通用的爬虫。事实上,这就是我正在设计的。我正在努力使它尽可能通用。我正在寻找一本关于网络爬虫的好书或任何资源。我找不到。你知道吗?再说一遍,tnx。