Java 爪哇及；Heritrix 3.1.x：Web内容解析？_Java_Web Crawler_Webpage_Document Classification_Heritrix

Java 爪哇及；Heritrix 3.1.x：Web内容解析？

java web-crawler

Java 爪哇及；Heritrix 3.1.x：Web内容解析？,java,web-crawler,webpage,document-classification,heritrix,Java,Web Crawler,Webpage,Document Classification,Heritrix,由于Heritrix 3.x的开发人员文档基本上已经过时（大部分属于Heritrix 1.x，因为大多数类已经更改，或者代码已经被大量重写/重构），有人能给我指出系统中处理实际网页内容提取的相关类吗我想做的是获取Heritrix将要爬网的网页内容，然后对网页内容应用分类器？（分析结构特征等）我认为此功能可能分布在ContentExtractor类及其许多子类之间，但我尝试的是找到一个点，即网页内容是完整的还是可读/可解析的流。Heritrix应用正则表达式的内容（html）在哪里（以便查找链接

由于Heritrix 3.x的开发人员文档基本上已经过时（大部分属于Heritrix 1.x，因为大多数类已经更改，或者代码已经被大量重写/重构），有人能给我指出系统中处理实际网页内容提取的相关类吗

我想做的是获取Heritrix将要爬网的网页内容，然后对网页内容应用分类器？（分析结构特征等）我认为此功能可能分布在ContentExtractor类及其许多子类之间，但我尝试的是找到一个点，即网页内容是完整的还是可读/可解析的流。Heritrix应用正则表达式的内容（html）在哪里（以便查找链接、某些文件类型等）？

我建议查看自定义WriterProcessor我编写了一个自定义MirrorWriter，它查看传入的数据，并将文件写入不同的位置，以便稍后进行后期处理。MirrorWriter类的代码非常直截了当，注释也很好。文件如下：

如果您对预处理死心塌地，那么您可以扩展org.archive.modules.extractor.ExtractorHTML并执行动态版本