Hbase 如何从Nutch爬网数据中提取数据？_Hbase_Nutch

Hbase 如何从Nutch爬网数据中提取数据？

hbase

Hbase 如何从Nutch爬网数据中提取数据？,hbase,nutch,Hbase,Nutch,Apache Nutch对保存在hbase中的一些数据进行了爬网。这些数据包含一些PDF文件。现在我想提取这些文件我如何做到这一点？默认情况下，Hbase不了解存储的数据类型。我认为您可以在HBase shell中使用readdb命令（）从网页表中提取数据。您可以使用nutch dump命令以下是语法： bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir> 正如您肯定知道的，已爬

Apache Nutch对保存在

hbase

中的一些数据进行了爬网。这些数据包含一些PDF文件。现在我想提取这些文件

我如何做到这一点？

默认情况下，Hbase不了解存储的数据类型。我认为您可以在HBase shell中使用readdb命令（）从网页表中提取数据。

您可以使用nutch dump命令

以下是语法：

bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>

正如您肯定知道的，已爬网的数据存储在段中。您实际上可以使用readseg命令提取这些数据（例如）：

其中my_dump_dir是您的目录，它将被创建并包含dump

然后在my_dump_dir中，您将找到两个文件：dump（包含爬网和解析的数据-非_编码）和.dump.crc（我猜是一些二进制文件）。它们使用任何文本编辑器查看转储并查看结构。如果需要，还可以解析它

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir