Web crawler 检索网站源代码的网络爬虫_Web Crawler

Web crawler 检索网站源代码的网络爬虫

web-crawler

Web crawler 检索网站源代码的网络爬虫,web-crawler,Web Crawler,我想做一个有点困难的事情。我想做一个爬虫，除了从链接中下载网站的源代码。然后，我想做一个程序，如果有一条语句存在，我会搜索每个网站的源代码（例如，如果有一个标题，则排除该网站）.您无法从脚本读取服务器代码。您只能获取HTML或客户端上运行的任何其他内容（即javascript）。我曾经找到一个类似的PHP脚本，但它当然会获取客户端代码（正如SpyrosP准确地说的那样）。请参见这里是一个使用HttpWebRequest对象获取信息的C#示例您可以通过jsoup jsoup是一个用于处理真实HT

我想做一个有点困难的事情。我想做一个爬虫，除了从链接中下载网站的源代码。然后，我想做一个程序，如果有一条语句存在，我会搜索每个网站的源代码（例如，如果有一个标题，则排除该网站）.

您无法从脚本读取服务器代码。您只能获取HTML或客户端上运行的任何其他内容（即javascript）。

我曾经找到一个类似的PHP脚本，但它当然会获取客户端代码（正如SpyrosP准确地说的那样）。请参见

这里是一个使用HttpWebRequest对象获取信息的C#示例

您可以通过jsoup
jsoup是一个用于处理真实HTML的Java库。

您可以检索信息，使用标记解析Html。

您是否使用linux comando wget进行了测试？

我想你也可以测试一下。

你可以从这里开始。我对某些流行编程站点中存在的一些类进行了硬编码，以便python脚本收集答案代码块或遇到的第一个答案代码块。然后，它使用在线编程语言识别工具的API找到合适的lexer并进行一些代码颜色格式化，然后打印每个站点的彩色结果。请获取API密钥，因为目前我的API密钥是硬编码的。

这根本不可能，除非您的意思是源HTMLY您的问题不是很具体，并且已经在该网站上为大多数常用语言解答了。请使用搜索功能，记住所有网络爬虫都会在某个时候检索页面的“源代码”（html）。这是唯一需要检索的东西。html中没有“如果：）不过抓取html是每个爬虫都做的事情，而且很容易做到。