Hadoop 大数据分析技术选择_Hadoop_Cassandra_Hive_Apache Pig

Hadoop 大数据分析技术选择

hadoop cassandra hive apache-pig

Hadoop 大数据分析技术选择,hadoop,cassandra,hive,apache-pig,Hadoop,Cassandra,Hive,Apache Pig,我被要求评估可能的技术，我们需要使用下面描述的问题。可能的选项有Hadoop、Hive和Pig。这两方面我都没有多少经验。如果你能指出一个好的来源阅读。我在谷歌上搜索并找到了大量的参考资料，但很难找到一个循序渐进的解释或比较这是我需要解决的任务用户在系统中输入句子。句子由单词组成，存储在Cassandra列族中。每行是一个单词（键），列名是输入此记录时没有列值的时间戳我需要能够查询数据库并从以下细分中提取N个单词： a_1%必须是从现在到过去的T1期间的顶部单词 a_2%必须是从现在到过去

我被要求评估可能的技术，我们需要使用下面描述的问题。可能的选项有Hadoop、Hive和Pig。这两方面我都没有多少经验。如果你能指出一个好的来源阅读。我在谷歌上搜索并找到了大量的参考资料，但很难找到一个循序渐进的解释或比较

这是我需要解决的任务

用户在系统中输入句子。句子由单词组成，存储在Cassandra列族中。每行是一个单词（键），列名是输入此记录时没有列值的时间戳

我需要能够查询数据库并从以下细分中提取N个单词：

a_1%必须是从现在到过去的T1期间的顶部单词 a_2%必须是从现在到过去T2期间的最前面的单词 a_3%必须是从现在到过去的T3期间的最前面的单词

a_n%必须是从现在到过去的期间T_n的最前面的单词

a_1+a_2+…a_n=100%

T1、T2等是任意时间间隔

如果您能为我的任务提供技术选择建议，我将不胜感激。我们正在使用Cassandra，我们对它非常熟悉。现在我们需要决定将哪种分析工具放在上面

链接或详细信息将不胜感激。

如果您在配置单元中对数据进行了分区（按时间间隔），那么在配置单元中通过一次查询就可以找到这样的“顶级单词组合”句子。此外，HIVEQL sytnax在将来可能有助于进行更多的分析，特别是对于了解SQL的人。问题是如何将Cassandra与Hadoop集成。我希望有人能谈谈这件事。德国劳埃德船级社！

已编辑：有一章是关于相互关联的

对于大多数技术人员来说，大数据这一术语并不是很陌生，尽管在每个人的头脑中都有一些困惑。如果我们从外行的角度解释这个术语，那么它意味着大量的结构化和非结构化数据。在了解了大数据这一术语的定义后，我们脑海中会出现一个非常常见的问题，即我们如何获得如此大量的数据？作为对这个问题的回答，我们可以说，我们通常在与朋友交流、进行数字交易或在线购物时生成数据

我们已经知道，信息、照片、文本、语音和视频数据是大数据的基础，而大数据现在涉及到许多帮助人类的项目。

这个问题不是建设性的。Stack Overflow不是一个用于购物清单、民意调查或比较的网站。也就是说，根据概率分布进行采样可以使用prettymuch任何您想要使用的数据库或分布式系统。