Java 爪哇及;Heritrix 3.1.x:Web内容解析?

Java 爪哇及;Heritrix 3.1.x:Web内容解析?,java,web-crawler,webpage,document-classification,heritrix,Java,Web Crawler,Webpage,Document Classification,Heritrix,由于Heritrix 3.x的开发人员文档基本上已经过时(大部分属于Heritrix 1.x,因为大多数类已经更改,或者代码已经被大量重写/重构),有人能给我指出系统中处理实际网页内容提取的相关类吗 我想做的是获取Heritrix将要爬网的网页内容,然后对网页内容应用分类器?(分析结构特征等)我认为此功能可能分布在ContentExtractor类及其许多子类之间,但我尝试的是找到一个点,即网页内容是完整的还是可读/可解析的流。Heritrix应用正则表达式的内容(html)在哪里(以便查找链接

由于Heritrix 3.x的开发人员文档基本上已经过时(大部分属于Heritrix 1.x,因为大多数类已经更改,或者代码已经被大量重写/重构),有人能给我指出系统中处理实际网页内容提取的相关类吗


我想做的是获取Heritrix将要爬网的网页内容,然后对网页内容应用分类器?(分析结构特征等)我认为此功能可能分布在ContentExtractor类及其许多子类之间,但我尝试的是找到一个点,即网页内容是完整的还是可读/可解析的流。Heritrix应用正则表达式的内容(html)在哪里(以便查找链接、某些文件类型等)?

我建议查看自定义WriterProcessor我编写了一个自定义MirrorWriter,它查看传入的数据,并将文件写入不同的位置,以便稍后进行后期处理。MirrorWriter类的代码非常直截了当,注释也很好。 文件如下:

如果您对预处理死心塌地,那么您可以扩展org.archive.modules.extractor.ExtractorHTML并执行动态版本