如何从Nutch spidered网页数据库中获取XML格式的信息_Xml_Nutch_Aggregation_Text Mining

如何从Nutch spidered网页数据库中获取XML格式的信息

xml

如何从Nutch spidered网页数据库中获取XML格式的信息,xml,nutch,aggregation,text-mining,Xml,Nutch,Aggregation,Text Mining,我正在尝试构建图书聚合门户。Nutch为我提供了优秀的网络爬虫，但我需要非常具体的信息，如书名、书价、ISBN、作者等。如何从爬虫页面中提取这些信息？如果可能的话，我想以XML格式获取这些信息除了以上，我想问一下，这是否是正确的方法！使用其他开源软件是否可以更好地完成此任务？这取决于数据的结构我假设您正在抓取大部分HTML页面通常，您可以使用抓取页面的某些部分，例如“//div[@class='books']/a/text（）如果大部分文本是非结构化的（没有结构化的HTML模式可供获取）

我正在尝试构建图书聚合门户。Nutch为我提供了优秀的网络爬虫，但我需要非常具体的信息，如书名、书价、ISBN、作者等。如何从爬虫页面中提取这些信息？如果可能的话，我想以XML格式获取这些信息

除了以上，我想问一下，这是否是正确的方法！使用其他开源软件是否可以更好地完成此任务？

这取决于数据的结构

我假设您正在抓取大部分HTML页面

通常，您可以使用抓取页面的某些部分，例如“//div[@class='books']/a/text（）

如果大部分文本是非结构化的（没有结构化的HTML模式可供获取），则必须使用正则表达式或信息提取

如果幸运的话，您可以使用正则表达式完成部分/大部分操作

对于一些更复杂的结构，您需要使用信息提取/命名实体识别

你必须训练一个IE工具，比如说，识别书名并在文档中注释它们。也请查收

像Mozenda这样的服务可以为您完成爬行和X路径工作，但我还没有见过一家提供IE服务的公司