Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/418.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 使用Java脚本或Web表单对网站进行爬网_C#_Javascript_Windows_Webforms - Fatal编程技术网

C# 使用Java脚本或Web表单对网站进行爬网

C# 使用Java脚本或Web表单对网站进行爬网,c#,javascript,windows,webforms,C#,Javascript,Windows,Webforms,我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站,其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的,我只是不知道如何爬行。现在,这些网站不显示实际的HTML页面。我的意思是,如果我在IE或firefox中浏览该页面,HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上,我不太熟悉web开发,所以如果我错了,请纠正我 我的问题是,有没有像

我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站,其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的,我只是不知道如何爬行。现在,这些网站不显示实际的HTML页面。我的意思是,如果我在IE或firefox中浏览该页面,HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上,我不太熟悉web开发,所以如果我错了,请纠正我

我的问题是,有没有像我现在这样的人成功地解决了这些“挑战”?有人知道某本关于网络爬虫的书或文章吗?那些属于这些高级类型的网站


谢谢。

这里有两个不同的问题

形式 根据经验,爬虫不会触摸表单

为一个特定的网站编写一些东西可能是合适的,该网站提交预先确定的(或半随机的)数据(特别是在为您自己的web应用程序编写自动测试时),但一般的爬虫程序应该让它们保持独立

描述如何提交表单数据的规范可以在上找到,可能有一个C#库可以提供帮助

JavaScript JavaScript是一个相当复杂的野兽

有三种常见的处理方法:

  • 编写您的爬虫程序,以便它复制您关心的特定网站的JS功能
  • 自动化web浏览器
  • 使用类似于

  • 我发现了一篇关于deepweb的文章,它非常有趣,我认为这回答了我上面的问题


    我一定很喜欢这一点。

    可以直接处理javascript。不过这不是免费的。

    你好,大卫,谢谢你的信息。这是一个好的开始。你提到了一个通用的爬虫。事实上,这就是我正在设计的。我正在努力使它尽可能通用。我正在寻找一本关于网络爬虫的好书或任何资源。我找不到。你知道吗?再说一遍,tnx。