Parsing 爬网文件存储在Heritrix web crawler中的位置

Parsing 爬网文件存储在Heritrix web crawler中的位置,parsing,filesystems,web-crawler,Parsing,Filesystems,Web Crawler,我想知道爬网文件在Heritrix web crawler中的存储位置 感谢并预告来自: 默认情况下,heritrix使用将其所有已爬网文件写入磁盘。此处理器将找到的爬网内容写入Internet存档ARC文件。ARC文件格式如下所述:。Heritrix写入版本1 ARC文件 ARC文件位于爬网实例的ARC/文件夹中。您可以在heritrix的web GUI设置中更改位置 您可以将其设置为WARCWriterProcessor WARC files、MirrorWriterProcessor NO

我想知道爬网文件在Heritrix web crawler中的存储位置

感谢并预告

来自:

默认情况下,heritrix使用将其所有已爬网文件写入磁盘。此处理器将找到的爬网内容写入Internet存档ARC文件。ARC文件格式如下所述:。Heritrix写入版本1 ARC文件

ARC文件位于爬网实例的ARC/文件夹中。您可以在heritrix的web GUI设置中更改位置

您可以将其设置为WARCWriterProcessor WARC files、MirrorWriterProcessor NOT container或WARC文件,而不是默认的ARCWriterProcessor。好吧,你甚至可以设置多个编剧。请注意,在选择MirrorWriterProcessor时,并非所有文件都可以写入光盘,具体取决于您将文件写入的文件系统

[1]

来自:

默认情况下,heritrix使用将其所有已爬网文件写入磁盘。此处理器将找到的爬网内容写入Internet存档ARC文件。ARC文件格式如下所述:。Heritrix写入版本1 ARC文件

ARC文件位于爬网实例的ARC/文件夹中。您可以在heritrix的web GUI设置中更改位置

您可以将其设置为WARCWriterProcessor WARC files、MirrorWriterProcessor NOT container或WARC文件,而不是默认的ARCWriterProcessor。好吧,你甚至可以设置多个编剧。请注意,在选择MirrorWriterProcessor时,并非所有文件都可以写入光盘,具体取决于您将文件写入的文件系统


[1]

是的,我想查看爬网文件。。。那个文件的格式是什么。。。如何解析?是的,我想查看爬网文件。。。那个文件的格式是什么。。。我将如何解析?