Java 用Hive清理大数据

Java 用Hive清理大数据,java,hadoop,hive,data-cleaning,Java,Hadoop,Hive,Data Cleaning,我正在使用配置单元查询我拥有的数据。问题是,这些数据需要清理,而且它太大了,我无法尝试在我的计算机上处理它(因此使用Hadoop和Hive)。有没有办法让我用蜂箱来做这个?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式 谢谢您应该使用MapReduce程序清理数据。可能连一个可以提高性能的减速器都没有 MapReduce程序的工作原理类似于缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询 您应该使用MapReduce

我正在使用配置单元查询我拥有的数据。问题是,这些数据需要清理,而且它太大了,我无法尝试在我的计算机上处理它(因此使用Hadoop和Hive)。有没有办法让我用蜂箱来做这个?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式


谢谢

您应该使用MapReduce程序清理数据。可能连一个可以提高性能的减速器都没有


MapReduce程序的工作原理类似于缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询

您应该使用MapReduce程序清理数据。可能连一个可以提高性能的减速器都没有

what is your data size?
what is your cleaning operation?
MapReduce程序的工作原理类似于缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询

what is your data size?
what is your cleaning operation?
如果在Hive的帮助下无法完成清洁操作,则只能使用mapreduce/pig

如果您的问题是蜂巢的性能,请尝试对其进行优化

优化取决于您的清理操作。您可以使用
分发缓存
映射端连接

如果在Hive的帮助下无法完成清洁操作,则只能使用mapreduce/pig

如果您的问题是蜂巢的性能,请尝试对其进行优化


优化取决于您的清理操作。您可以使用
分发缓存
映射端连接

谢谢你回答我。最后我用流媒体来清理数据谢谢你的回答。我最终使用流媒体来清理数据