hadoop-从非常大的序列文件中获取数据的最佳方法是什么?

hadoop-从非常大的序列文件中获取数据的最佳方法是什么?,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方法是什么?例如,选择记录等 可以用蜂箱做吗? 如何从序列文件在配置单元中创建表 谢谢< P>如果你需要“快速”访问数据,你应该考虑将数据加载到某种数据存储(DB或NoSQL存储,如HBase,SeCo)。 另一个选择(如果您可以重新写入数据)是研究使用-这将为序列文件中的键创建索引,并提供比完整文件扫描更快的数据访问 否则,如果您想使用Hive,Hive邮件列表上会有一条关于此主题的线索: 您查看过外部表格吗?我关注的不

我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方法是什么?例如,选择记录等

可以用蜂箱做吗? 如何从序列文件在配置单元中创建表


谢谢

< P>如果你需要“快速”访问数据,你应该考虑将数据加载到某种数据存储(DB或NoSQL存储,如HBase,SeCo)。 另一个选择(如果您可以重新写入数据)是研究使用-这将为序列文件中的键创建索引,并提供比完整文件扫描更快的数据访问

否则,如果您想使用Hive,Hive邮件列表上会有一条关于此主题的线索:


您查看过外部表格吗?我关注的不是性能方面的“快速”。就发展而言,它“迅速”。我只需要做一些随机分析。我不希望每次都写mapreduce,也不希望每次都写mapreduce。如果我使用hbase,如何将序列文件加载到hbase?如果随机分析是您所追求的,那么我将研究使用Pig。至于将序列文件加载到hbase,您需要编写一个map reduce作业来读取序列文件并将数据写入hbase,或者将输出格式更改为
HFileOutputFormat
,然后进行批量加载。