Hadoop 用于大量变量的HBase或Hive

Hadoop 用于大量变量的HBase或Hive,hadoop,hbase,hive,apache-pig,Hadoop,Hbase,Hive,Apache Pig,我有一个包含2500多个变量的csv文件,我想把它放在Hadoop集群中,使用HBase、Hive Table或Pig。由于变量的数量非常大,因此我无法理解哪种方法是时间有效的 任何指向这个方向的指针都会非常有用。你说的“超过2500个变量”是什么意思?你有超过2500个专栏?具有各种字段的地图?你怎么知道这2500个变量意味着什么,不管你用什么?是的,WinnieNicklaus。2500列是我的意思。它们都是字符或数字(也没有映射)。标题或第一行包含它的名称。希望能有帮助。你想用这些数据做什

我有一个包含2500多个变量的csv文件,我想把它放在Hadoop集群中,使用HBase、Hive Table或Pig。由于变量的数量非常大,因此我无法理解哪种方法是时间有效的


任何指向这个方向的指针都会非常有用。

你说的“超过2500个变量”是什么意思?你有超过2500个专栏?具有各种字段的地图?你怎么知道这2500个变量意味着什么,不管你用什么?是的,WinnieNicklaus。2500列是我的意思。它们都是字符或数字(也没有映射)。标题或第一行包含它的名称。希望能有帮助。你想用这些数据做什么?用例对存储的选择很重要。@EricZBeard说得对:用例至关重要:hbase具有近乎实时的查询,但查询语义非常简单。配置单元具有复杂的查询功能,但面向批处理。