Parsing 特定语言网站的Apache Nutch标题解析问题

Parsing 特定语言网站的Apache Nutch标题解析问题,parsing,nutch,apache-tika,nutch2,Parsing,Nutch,Apache Tika,Nutch2,我已经用Hadoop 2.7.5和Hbase 0.98配置了ApacheNutch2.3.1。我得抓取一些乌尔都语网站。我使用它的默认解析器,即html、tika。有些文件的标题为乌尔都语,但有些文件的标题为乌尔都语,标题1即h1为原始标题,例如。类似地,在某些情况下,元标记具有relvement title。是否有任何内置选项(解析器)可以处理此选项,以便它应该选择h1作为标题(如果可用) 或者,如果我必须这样做,有什么可能的方法可以达到这个目的。Nutch将使用DOM树()中的title标记

我已经用Hadoop 2.7.5和Hbase 0.98配置了ApacheNutch2.3.1。我得抓取一些乌尔都语网站。我使用它的默认解析器,即html、tika。有些文件的标题为乌尔都语,但有些文件的标题为乌尔都语,标题1即h1为原始标题,例如。类似地,在某些情况下,元标记具有relvement title。是否有任何内置选项(解析器)可以处理此选项,以便它应该选择h1作为标题(如果可用)


或者,如果我必须这样做,有什么可能的方法可以达到这个目的。

Nutch将使用DOM树()中的
title
标记,为此,您需要在解析器插件中编写自定义逻辑。但真正的问题是,您如何识别“坏”标签?将是一些特定的内容(如URL)


在任何情况下,您都需要在解析器或索引插件中编写自己的插件(如在某些情况下获取字段并将其复制到标题字段)。

Nutch将使用DOM树()中的
title
标记,如果存在,则需要在解析器插件中编写自定义逻辑。但真正的问题是,您如何识别“坏”标签?将是一些特定的内容(如URL)


在任何情况下,您都需要在解析器或索引插件中编写自己的插件(比如在某些情况下获取一个字段并将其复制到标题字段)。

这是兄弟,事实上,在一些爬网文档中,有些标题完全是非乌尔都语的,这些标题对我们来说是不好的。在这种情况下,您可以编写自己的插件来标识标题的语言,如果它与文档的语言不同(假设为您的网页设置/标识了正确的语言),则将从
h1
标记复制文本。不幸的是,没有内置的方法可以做到这一点。兄弟,事实上,在一些爬网文档中有一些标题完全是非乌尔都语的,这些标题对我们来说是不好的。在这种情况下,你可以编写自己的插件来识别标题的语言,如果它与文档的语言不同的话(假设为您的网页正确设置/标识了语言)将从
h1
标记复制文本。遗憾的是,没有内置的方法。