Web crawler 检索网站源代码的网络爬虫

Web crawler 检索网站源代码的网络爬虫,web-crawler,Web Crawler,我想做一个有点困难的事情。我想做一个爬虫,除了从链接中下载网站的源代码。然后,我想做一个程序,如果有一条语句存在,我会搜索每个网站的源代码(例如,如果有一个标题,则排除该网站).您无法从脚本读取服务器代码。您只能获取HTML或客户端上运行的任何其他内容(即javascript)。我曾经找到一个类似的PHP脚本,但它当然会获取客户端代码(正如SpyrosP准确地说的那样)。请参见这里是一个使用HttpWebRequest对象获取信息的C#示例 您可以通过jsoup jsoup是一个用于处理真实HT

我想做一个有点困难的事情。我想做一个爬虫,除了从链接中下载网站的源代码。然后,我想做一个程序,如果有一条语句存在,我会搜索每个网站的源代码(例如,如果有一个标题,则排除该网站).

您无法从脚本读取服务器代码。您只能获取HTML或客户端上运行的任何其他内容(即javascript)。

我曾经找到一个类似的PHP脚本,但它当然会获取客户端代码(正如SpyrosP准确地说的那样)。请参见

这里是一个使用HttpWebRequest对象获取信息的C#示例


您可以通过jsoup
jsoup是一个用于处理真实HTML的Java库。


您可以检索信息,使用标记解析Html。

您是否使用linux comando wget进行了测试?


我想你也可以测试一下。

你可以从这里开始。我对某些流行编程站点中存在的一些类进行了硬编码,以便python脚本收集答案代码块或遇到的第一个答案代码块。然后,它使用在线编程语言识别工具的API找到合适的lexer并进行一些代码颜色格式化,然后打印每个站点的彩色结果。请获取API密钥,因为目前我的API密钥是硬编码的。

这根本不可能,除非您的意思是源HTMLY您的问题不是很具体,并且已经在该网站上为大多数常用语言解答了。请使用搜索功能,记住所有网络爬虫都会在某个时候检索页面的“源代码”(html)。这是唯一需要检索的东西。html中没有“如果:)不过抓取html是每个爬虫都做的事情,而且很容易做到。