Hbase 如何从Nutch爬网数据中提取数据?

Hbase 如何从Nutch爬网数据中提取数据?,hbase,nutch,Hbase,Nutch,Apache Nutch对保存在hbase中的一些数据进行了爬网。这些数据包含一些PDF文件。现在我想提取这些文件 我如何做到这一点?默认情况下,Hbase不了解存储的数据类型。我认为您可以在HBase shell中使用readdb命令()从网页表中提取数据。您可以使用nutch dump命令 以下是语法: bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir> 正如您肯定知道的,已爬

Apache Nutch对保存在
hbase
中的一些数据进行了爬网。这些数据包含一些PDF文件。现在我想提取这些文件


我如何做到这一点?

默认情况下,Hbase不了解存储的数据类型。我认为您可以在HBase shell中使用readdb命令()从网页表中提取数据。

您可以使用nutch dump命令

以下是语法:

bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>

正如您肯定知道的,已爬网的数据存储在段中。您实际上可以使用readseg命令提取这些数据(例如):

其中my_dump_dir是您的目录,它将被创建并包含dump

然后在my_dump_dir中,您将找到两个文件:dump(包含爬网和解析的数据-非_编码)和.dump.crc(我猜是一些二进制文件)。它们使用任何文本编辑器查看转储并查看结构。如果需要,还可以解析它

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir