如何从Nutch spidered网页数据库中获取XML格式的信息

如何从Nutch spidered网页数据库中获取XML格式的信息,xml,nutch,aggregation,text-mining,Xml,Nutch,Aggregation,Text Mining,我正在尝试构建图书聚合门户。Nutch为我提供了优秀的网络爬虫,但我需要非常具体的信息,如书名、书价、ISBN、作者等。如何从爬虫页面中提取这些信息?如果可能的话,我想以XML格式获取这些信息 除了以上,我想问一下,这是否是正确的方法!使用其他开源软件是否可以更好地完成此任务?这取决于数据的结构 我假设您正在抓取大部分HTML页面 通常,您可以使用抓取页面的某些部分,例如“//div[@class='books']/a/text() 如果大部分文本是非结构化的(没有结构化的HTML模式可供获取)

我正在尝试构建图书聚合门户。Nutch为我提供了优秀的网络爬虫,但我需要非常具体的信息,如书名、书价、ISBN、作者等。如何从爬虫页面中提取这些信息?如果可能的话,我想以XML格式获取这些信息


除了以上,我想问一下,这是否是正确的方法!使用其他开源软件是否可以更好地完成此任务?

这取决于数据的结构

我假设您正在抓取大部分HTML页面

通常,您可以使用抓取页面的某些部分,例如“//div[@class='books']/a/text()

如果大部分文本是非结构化的(没有结构化的HTML模式可供获取),则必须使用正则表达式或信息提取

如果幸运的话,您可以使用正则表达式完成部分/大部分操作

对于一些更复杂的结构,您需要使用信息提取/命名实体识别

你必须训练一个IE工具,比如说,识别书名并在文档中注释它们。也请查收

像Mozenda这样的服务可以为您完成爬行和X路径工作,但我还没有见过一家提供IE服务的公司