Web crawler 从爬网站点（ARC文件）提取图形_Web Crawler_Archiving_Information Extraction

Web crawler 从爬网站点（ARC文件）提取图形

web-crawler

Web crawler 从爬网站点（ARC文件）提取图形,web-crawler,archiving,information-extraction,Web Crawler,Archiving,Information Extraction,我正在处理由Heritrix爬网生成的ARC文件。当我在Wayback机器中查看这些页面时，看起来大部分图形都是从本地机器加载的，因此我假设这些图形存储在ARC文件中。对吗？如果是这样，提取图像的最佳方法是什么？我找到了一个解决方案，一个名为arc_extractor的perl脚本：它提取ARC文件中的所有文件，并根据接收文件的站点按文件夹分隔。是的，它确实包括图像文件剧本不太优雅。。。因此，如果有人有任何其他建议，我会有兴趣了解他们

我正在处理由Heritrix爬网生成的ARC文件。当我在Wayback机器中查看这些页面时，看起来大部分图形都是从本地机器加载的，因此我假设这些图形存储在ARC文件中。对吗？如果是这样，提取图像的最佳方法是什么？

我找到了一个解决方案，一个名为arc_extractor的perl脚本：

它提取ARC文件中的所有文件，并根据接收文件的站点按文件夹分隔。是的，它确实包括图像文件

剧本不太优雅。。。因此，如果有人有任何其他建议，我会有兴趣了解他们