hadoop-从非常大的序列文件中获取数据的最佳方法是什么？_Hadoop_Hive_Bigdata

hadoop-从非常大的序列文件中获取数据的最佳方法是什么？

hadoop hive

hadoop-从非常大的序列文件中获取数据的最佳方法是什么？,hadoop,hive,bigdata,Hadoop,Hive,Bigdata,我在hdfs中有一个非常大的hadoop序列文件。从中获取数据的最佳方法是什么？例如，选择记录等可以用蜂箱做吗？如何从序列文件在配置单元中创建表谢谢< P>如果你需要“快速”访问数据，你应该考虑将数据加载到某种数据存储（DB或NoSQL存储，如HBase，SeCo）。另一个选择（如果您可以重新写入数据）是研究使用-这将为序列文件中的键创建索引，并提供比完整文件扫描更快的数据访问否则，如果您想使用Hive，Hive邮件列表上会有一条关于此主题的线索：您查看过外部表格吗？我关注的不

我在hdfs中有一个非常大的hadoop序列文件。从中获取数据的最佳方法是什么？例如，选择记录等

可以用蜂箱做吗？如何从序列文件在配置单元中创建表

谢谢

< P>如果你需要“快速”访问数据，你应该考虑将数据加载到某种数据存储（DB或NoSQL存储，如HBase，SeCo）。另一个选择（如果您可以重新写入数据）是研究使用-这将为序列文件中的键创建索引，并提供比完整文件扫描更快的数据访问

否则，如果您想使用Hive，Hive邮件列表上会有一条关于此主题的线索：

您查看过外部表格吗？我关注的不是性能方面的“快速”。就发展而言，它“迅速”。我只需要做一些随机分析。我不希望每次都写mapreduce，也不希望每次都写mapreduce。如果我使用hbase，如何将序列文件加载到hbase？如果随机分析是您所追求的，那么我将研究使用Pig。至于将序列文件加载到hbase，您需要编写一个map reduce作业来读取序列文件并将数据写入hbase，或者将输出格式更改为

HFileOutputFormat

，然后进行批量加载。