Python 3.x 使用nutch仅解析所需的数据

Python 3.x 使用nutch仅解析所需的数据,python-3.x,nutch,Python 3.x,Nutch,我已经构建了nutch crawler来抓取新闻网站,但问题是我从一个特定的网站获取了我不想要的所有数据,我的问题是如何配置nutch来只解析我想要的数据虽然这不是一个很好的问题,但让我们试着放一些上下文。首先,您需要定义所需的数据,这通常意味着: 爬网特定的URL 提取页面HTML中的特定数据(如特定段落、标题等) 对于特定的URL情况,您有URLFilters,它应该允许您排除您想要的任何URL。在这种情况下,因为你只提到一个网站,这应该工作 对于第二种情况,您可以查看以下3种备选方案:

我已经构建了nutch crawler来抓取新闻网站,但问题是我从一个特定的网站获取了我不想要的所有数据,我的问题是如何配置nutch来只解析我想要的数据

虽然这不是一个很好的问题,但让我们试着放一些上下文。首先,您需要定义所需的数据,这通常意味着:

  • 爬网特定的URL
  • 提取页面HTML中的特定数据(如特定段落、标题等)
对于特定的URL情况,您有
URLFilters
,它应该允许您排除您想要的任何URL。在这种情况下,因为你只提到一个网站,这应该工作

对于第二种情况,您可以查看以下3种备选方案: