HTML解析器…我最近的项目需要一个网络蜘蛛
HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容,并递归地获取链接。。。。 但是,它需要确切地知道它的内容。就像标签一样。 它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。 塔克斯HTML解析器…我最近的项目需要一个网络蜘蛛,html,parsing,web-crawler,Html,Parsing,Web Crawler,HTML解析器…我最近的项目需要一个网络蜘蛛。它会自动获取web内容,并递归地获取链接。。。。 但是,它需要确切地知道它的内容。就像标签一样。 它在linux和windows中运行..你知道一些关于这个需求的开源软件吗。。 塔克斯 或者关于一些建议。我想你需要知道的主题是正则表达式 正则表达式在所有平台和所有语言(Java、PHP、Python、C#、Ruby、Javascript)上都可用。 使用正则表达式,您可以轻松地将其内容精确到所需的首选形式 Pattern p = Pattern.co
或者关于一些建议。我想你需要知道的主题是正则表达式 正则表达式在所有平台和所有语言(Java、PHP、Python、C#、Ruby、Javascript)上都可用。 使用正则表达式,您可以轻松地将其内容精确到所需的首选形式
Pattern p = Pattern.compile("<a\\s[^>]*href=\"([^\"]+?)\"[^>]*>");
Matcher m = p.matcher(pageContent);
while( m.find() ) {
System.out.println( m.group(1) );
}
Pattern p=Pattern.compile(“是一个StackOverflow问题,展示了如何在不同语言中使用大量XML/HTML解析器。如果您告诉我们您使用的语言,我可以更具体一些,但您的答案可能已经在那里了。取决于您为哪种语言开发,尝试谷歌搜索:
html解析器语言名
例如,对于Ruby来说是一个很好的工具。你永远不应该使用正则表达式来解析非正则语言。即使这样做可行,当你的需求发生变化时,会发生什么?为什么不从适合这项工作的工具开始,而不是尝试将一些东西组合起来?(X | HT)ML解析器在几乎所有现代语言中都是可用的,并且非常容易使用。您的项目是用什么语言编写的?