Web crawler 从爬网站点(ARC文件)提取图形

Web crawler 从爬网站点(ARC文件)提取图形,web-crawler,archiving,information-extraction,Web Crawler,Archiving,Information Extraction,我正在处理由Heritrix爬网生成的ARC文件。当我在Wayback机器中查看这些页面时,看起来大部分图形都是从本地机器加载的,因此我假设这些图形存储在ARC文件中。对吗?如果是这样,提取图像的最佳方法是什么?我找到了一个解决方案,一个名为arc_extractor的perl脚本: 它提取ARC文件中的所有文件,并根据接收文件的站点按文件夹分隔。是的,它确实包括图像文件 剧本不太优雅。。。因此,如果有人有任何其他建议,我会有兴趣了解他们

我正在处理由Heritrix爬网生成的ARC文件。当我在Wayback机器中查看这些页面时,看起来大部分图形都是从本地机器加载的,因此我假设这些图形存储在ARC文件中。对吗?如果是这样,提取图像的最佳方法是什么?

我找到了一个解决方案,一个名为arc_extractor的perl脚本:

它提取ARC文件中的所有文件,并根据接收文件的站点按文件夹分隔。是的,它确实包括图像文件

剧本不太优雅。。。因此,如果有人有任何其他建议,我会有兴趣了解他们