Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 大数据分析技术选择_Hadoop_Cassandra_Hive_Apache Pig - Fatal编程技术网

Hadoop 大数据分析技术选择

Hadoop 大数据分析技术选择,hadoop,cassandra,hive,apache-pig,Hadoop,Cassandra,Hive,Apache Pig,我被要求评估可能的技术,我们需要使用下面描述的问题。可能的选项有Hadoop、Hive和Pig。这两方面我都没有多少经验。如果你能指出一个好的来源阅读。我在谷歌上搜索并找到了大量的参考资料,但很难找到一个循序渐进的解释或比较 这是我需要解决的任务 用户在系统中输入句子。句子由单词组成,存储在Cassandra列族中。每行是一个单词(键),列名是输入此记录时没有列值的时间戳 我需要能够查询数据库并从以下细分中提取N个单词: a_1%必须是从现在到过去的T1期间的顶部单词 a_2%必须是从现在到过去

我被要求评估可能的技术,我们需要使用下面描述的问题。可能的选项有Hadoop、Hive和Pig。这两方面我都没有多少经验。如果你能指出一个好的来源阅读。我在谷歌上搜索并找到了大量的参考资料,但很难找到一个循序渐进的解释或比较

这是我需要解决的任务

用户在系统中输入句子。句子由单词组成,存储在Cassandra列族中。每行是一个单词(键),列名是输入此记录时没有列值的时间戳

我需要能够查询数据库并从以下细分中提取N个单词:

a_1%必须是从现在到过去的T1期间的顶部单词 a_2%必须是从现在到过去T2期间的最前面的单词 a_3%必须是从现在到过去的T3期间的最前面的单词

a_n%必须是从现在到过去的期间T_n的最前面的单词

a_1+a_2+…a_n=100%

T1、T2等是任意时间间隔

如果您能为我的任务提供技术选择建议,我将不胜感激。我们正在使用Cassandra,我们对它非常熟悉。现在我们需要决定将哪种分析工具放在上面


链接或详细信息将不胜感激。

如果您在配置单元中对数据进行了分区(按时间间隔),那么在配置单元中通过一次查询就可以找到这样的“顶级单词组合”句子。此外,HIVEQL sytnax在将来可能有助于进行更多的分析,特别是对于了解SQL的人。问题是如何将Cassandra与Hadoop集成。我希望有人能谈谈这件事。德国劳埃德船级社!

已编辑:有一章是关于相互关联的

对于大多数技术人员来说,大数据这一术语并不是很陌生,尽管在每个人的头脑中都有一些困惑。如果我们从外行的角度解释这个术语,那么它意味着大量的结构化和非结构化数据。在了解了大数据这一术语的定义后,我们脑海中会出现一个非常常见的问题,即我们如何获得如此大量的数据?作为对这个问题的回答,我们可以说,我们通常在与朋友交流、进行数字交易或在线购物时生成数据


我们已经知道,信息、照片、文本、语音和视频数据是大数据的基础,而大数据现在涉及到许多帮助人类的项目。

这个问题不是建设性的。Stack Overflow不是一个用于购物清单、民意调查或比较的网站。也就是说,根据概率分布进行采样可以使用prettymuch任何您想要使用的数据库或分布式系统。