Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/79.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
HTML解析器…我最近的项目需要一个网络蜘蛛_Html_Parsing_Web Crawler - Fatal编程技术网

HTML解析器…我最近的项目需要一个网络蜘蛛

HTML解析器…我最近的项目需要一个网络蜘蛛,html,parsing,web-crawler,Html,Parsing,Web Crawler,HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容,并递归地获取链接。。。。 但是,它需要确切地知道它的内容。就像标签一样。 它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。 塔克斯 或者关于一些建议。我想你需要知道的主题是正则表达式 正则表达式在所有平台和所有语言(Java、PHP、Python、C#、Ruby、Javascript)上都可用。 使用正则表达式,您可以轻松地将其内容精确到所需的首选形式 Pattern p = Pattern.co

HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容,并递归地获取链接。。。。 但是,它需要确切地知道它的内容。就像标签一样。 它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。 塔克斯
或者关于一些建议。

我想你需要知道的主题是正则表达式

正则表达式在所有平台和所有语言(Java、PHP、Python、C#、Ruby、Javascript)上都可用。 使用正则表达式,您可以轻松地将其内容精确到所需的首选形式

Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) { 
  System.out.println( m.group(1) );
}

Pattern p=Pattern.compile(“

是一个StackOverflow问题,展示了如何在不同语言中使用大量XML/HTML解析器。如果您告诉我们您使用的语言,我可以更具体一些,但您的答案可能已经在那里了。

取决于您为哪种语言开发,尝试谷歌搜索:

html解析器语言名


例如,对于Ruby来说是一个很好的工具。

你永远不应该使用正则表达式来解析非正则语言。即使这样做可行,当你的需求发生变化时,会发生什么?为什么不从适合这项工作的工具开始,而不是尝试将一些东西组合起来?(X | HT)ML解析器在几乎所有现代语言中都是可用的,并且非常容易使用。您的项目是用什么语言编写的?