HTML解析器…我最近的项目需要一个网络蜘蛛_Html_Parsing_Web Crawler

HTML解析器…我最近的项目需要一个网络蜘蛛

html parsing web-crawler

HTML解析器…我最近的项目需要一个网络蜘蛛,html,parsing,web-crawler,Html,Parsing,Web Crawler,HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容，并递归地获取链接。。。。但是，它需要确切地知道它的内容。就像标签一样。它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。塔克斯或者关于一些建议。我想你需要知道的主题是正则表达式正则表达式在所有平台和所有语言（Java、PHP、Python、C#、Ruby、Javascript）上都可用。使用正则表达式，您可以轻松地将其内容精确到所需的首选形式 Pattern p = Pattern.co

HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容，并递归地获取链接。。。。但是，它需要确切地知道它的内容。就像标签一样。它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。塔克斯

或者关于一些建议。

我想你需要知道的主题是正则表达式

正则表达式在所有平台和所有语言（Java、PHP、Python、C#、Ruby、Javascript）上都可用。使用正则表达式，您可以轻松地将其内容精确到所需的首选形式

Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) { 
  System.out.println( m.group(1) );
}

Pattern p=Pattern.compile（“
是一个StackOverflow问题，展示了如何在不同语言中使用大量XML/HTML解析器。如果您告诉我们您使用的语言，我可以更具体一些，但您的答案可能已经在那里了。
取决于您为哪种语言开发，尝试谷歌搜索：
html解析器语言名
例如，对于Ruby来说是一个很好的工具。
你永远不应该使用正则表达式来解析非正则语言。即使这样做可行，当你的需求发生变化时，会发生什么？为什么不从适合这项工作的工具开始，而不是尝试将一些东西组合起来？（X | HT）ML解析器在几乎所有现代语言中都是可用的，并且非常容易使用。您的项目是用什么语言编写的？