如何准确处理Hadoop、Hive和Pig上的数据

如何准确处理Hadoop、Hive和Pig上的数据,hadoop,hive,hbase,apache-pig,hadoop-partitioning,Hadoop,Hive,Hbase,Apache Pig,Hadoop Partitioning,我已经学习了ApacheHadoop配置单元的基础知识。并且知道大多数命令。现在,如何准确地处理数据。我从一个人那里得到了大量关于megot it的数据。但我不知道该怎么办 data.xlsx是一家大公司的每周销售额,季度销售额是难以名状的。数据是我们不同分支机构不同产品的列式销售额 可以对此进行什么处理? 我应该先过滤数据,然后再进行过滤吗?您可以尝试从数据中找到一些有趣的见解,如: 1最畅销的产品 2经常一起购买的产品 销售额最高的3家分支机构 4最佳库存水平: A.当库存降至零时–潜在销售

我已经学习了ApacheHadoop配置单元的基础知识。并且知道大多数命令。现在,如何准确地处理数据。我从一个人那里得到了大量关于megot it的数据。但我不知道该怎么办

data.xlsx是一家大公司的每周销售额,季度销售额是难以名状的。数据是我们不同分支机构不同产品的列式销售额

可以对此进行什么处理? 我应该先过滤数据,然后再进行过滤吗?

您可以尝试从数据中找到一些有趣的见解,如: 1最畅销的产品 2经常一起购买的产品 销售额最高的3家分支机构 4最佳库存水平: A.当库存降至零时–潜在销售损失 B未使用的库存,没有销售 一年中某些产品需求量较大的5个时间段


听起来很有趣?这只是一个开始

人们通常知道要做什么,并寻找工具和技术来做同样的事情。这是它的反面。哈哈;-:-。实际上我对这个工具还不熟悉。。使用小数据集学习基本命令。现在我想把它应用于更大的集合。你能告诉我通常做什么吗。任何暗示都可以。听起来很有趣。我会灵巧地一个接一个地尝试。。非常感谢凯达。我一定会再联系你的。。