C# 使用Java脚本或Web表单对网站进行爬网_C#_Javascript_Windows_Webforms

C# 使用Java脚本或Web表单对网站进行爬网

c# javascript windows

C# 使用Java脚本或Web表单对网站进行爬网,c#,javascript,windows,webforms,C#,Javascript,Windows,Webforms,我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站，其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的，我只是不知道如何爬行。现在，这些网站不显示实际的HTML页面。我的意思是，如果我在IE或firefox中浏览该页面，HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上，我不太熟悉web开发，所以如果我错了，请纠正我我的问题是，有没有像

我有一个webcrawler应用程序。它成功地抓取了最常见和最简单的站点。现在我遇到了一些类型的网站，其中HTML文档是通过表单或Java脚本动态生成的。我相信它们是可以爬行的，我只是不知道如何爬行。现在，这些网站不显示实际的HTML页面。我的意思是，如果我在IE或firefox中浏览该页面，HTML代码与IE或firefox中的实际代码不匹配。这些网站包含文本框、复选框等。。。所以我相信它们就是他们所谓的“网络表单”。事实上，我不太熟悉web开发，所以如果我错了，请纠正我

我的问题是，有没有像我现在这样的人成功地解决了这些“挑战”？有人知道某本关于网络爬虫的书或文章吗？那些属于这些高级类型的网站

谢谢。

这里有两个不同的问题

形式根据经验，爬虫不会触摸表单

为一个特定的网站编写一些东西可能是合适的，该网站提交预先确定的（或半随机的）数据（特别是在为您自己的web应用程序编写自动测试时），但一般的爬虫程序应该让它们保持独立

描述如何提交表单数据的规范可以在上找到，可能有一个C#库可以提供帮助

JavaScript JavaScript是一个相当复杂的野兽

有三种常见的处理方法：

编写您的爬虫程序，以便它复制您关心的特定网站的JS功能

自动化web浏览器

使用类似于

我发现了一篇关于deepweb的文章，它非常有趣，我认为这回答了我上面的问题

我一定很喜欢这一点。

可以直接处理javascript。不过这不是免费的。

你好，大卫，谢谢你的信息。这是一个好的开始。你提到了一个通用的爬虫。事实上，这就是我正在设计的。我正在努力使它尽可能通用。我正在寻找一本关于网络爬虫的好书或任何资源。我找不到。你知道吗？再说一遍，tnx。