Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
卡桑德拉字数Hadoop_Hadoop_Cassandra - Fatal编程技术网

卡桑德拉字数Hadoop

卡桑德拉字数Hadoop,hadoop,cassandra,Hadoop,Cassandra,有人能解释一下Cassandra 2.1.15 WordCount示例中的以下几行吗 CqlConfigHelper.setInputCQLPageRowSize(job.getConfiguration(), "3"); CqlConfigHelper.setInputCql(job.getConfiguration(), "select * from " + COLUMN_FAMILY + " where token(id) > ? and token(id) <= ? allo

有人能解释一下Cassandra 2.1.15 WordCount示例中的以下几行吗

CqlConfigHelper.setInputCQLPageRowSize(job.getConfiguration(), "3");
CqlConfigHelper.setInputCql(job.getConfiguration(), "select * from " + COLUMN_FAMILY + " where token(id) > ? and token(id) <= ? allow filtering");
CqlConfigHelper.setInputCQLPageRowSize(job.getConfiguration(),“3”);
CqlConfigHelper.setInputCql(job.getConfiguration(),“从“+列\族+”中选择*其中标记(id)>?和标记(id)
如何定义用于替换中“?”的具体值
这个问题

不需要。这些参数化值由输入格式创建的拆分设置。它们是自动设置的,但可以通过调整拆分大小进行调整(在一定程度上)

什么是页面行大小


页面行大小决定映射程序在执行过程中在单个请求中检索到的CQL行数。如果C*分区包含10000行CQL行,并且页面行大小设置为1000,则需要10个请求才能检索到所有数据。

谢谢您的回答,先生,这非常好。但是我如何定义需要哪些行作为输入,按他们的键?我试过类似于“从篮球中选择*,其中team='Lakes'允许过滤”"但是我得到了以下例外-绑定变量的数量无效。我想选择所有以“Lakes”为名称的行,如何做?另外,关于第二部分,这是否意味着我隐式定义了映射器的数量?如果我有10个请求,这是否意味着将创建10个映射任务?的输入mat获取整个C*令牌范围,并根据输入拆分大小对其进行拆分。这会进行多次拆分。每次拆分都会执行一个包含两个变量的查询,即开始令牌和结束令牌。这就是为什么它要求您的查询中始终必须有两个变量。对于“湖人”查询,您只需在末尾添加类似where-token的内容(partitionkeyname)>?和token(partitionkeyname ID)您能重新考虑我的问题吗?下面的查询“select*from basketball.nba where team='lakes'和token(team)>”和token(team)不起作用如果该查询不起作用,那是因为它不是有效的CQL。由于内部结构,您的模式很可能不允许该查询。错误消息应该解释这一点。在尝试编写Hadoop作业之前,我会考虑查看更独立的CasDANRA数据建模。您可能只想使用蜂箱或猪,以便您使用。不必在这个抽象级别上工作“不能同时受到等式和不等式关系的限制-我看不出有什么原因,team是分区键,我还有另一个集群列和另一个简单列。你确定我编写的CQL看起来正确吗?使用SetInputWhere子句的方法是什么?我尝试了(team=“Lakes”),但仍然不好。