Hadoop 关键HD配置单元无法使用聚合函数

Hadoop 关键HD配置单元无法使用聚合函数,hadoop,hive,Hadoop,Hive,最近我在Hive上的一个博士虚拟机上运行了一些基本脚本。 下面的大部分内容在我之前使用的apache Distribution上运行良好,但现在在PHD版本中,where、sum、group by或基本上任何操作都没有正确响应。但是,数据可用,如以下select命令的o/p所示。 除了下面的第一条select语句之外,我为所有操作和查询获取空值 让我知道,如果有人面临这样一个问题,他们的设置 表的创建: create external table ytd (video_id string, up

最近我在Hive上的一个博士虚拟机上运行了一些基本脚本。 下面的大部分内容在我之前使用的apache Distribution上运行良好,但现在在PHD版本中,where、sum、group by或基本上任何操作都没有正确响应。但是,数据可用,如以下select命令的o/p所示。 除了下面的第一条select语句之外,我为所有操作和查询获取空值

让我知道,如果有人面临这样一个问题,他们的设置

表的创建:

create external table ytd (video_id string, uploader string, age int, category string, length int, views int, rate float, ratings int, comments int, rid1 string, rid2 string, rid3 string, rid4 string, rid5 string, rid6 string, rid7 string, rid8 string, rid9 string, rid10 string, rid11 string, rid12 string, rid13 string, rid14 string, rid15 string, rid16 string, rid17 string, rid18 string, rid19 string, rid20 string) row format delimited fields terminated by '\n' stored as textfile location '/joker/ytd/crawl';
以下命令的输出: 选择*自年初至今限制=5; 6 HNRBD4KKMG AcePuppers 790新闻与政治75 501976 4.19 1183 3543 ejsaF9T-qL8 EqpOXWAAVRI KHG6Ugrwy Tzrqngd 5Ql UeMBqDY UfaTpr4gVFo FQVeY0l7lzU 2YXpIlh5148 MhoyuDdqpDo ev17_Kl1; Kl1c8; K4RyakdjXM MS3LcpGEK14 xLs3jASBZNk 86Y4G8P00w-5PMs72S-E msAmWlzNhBE Gb2LOVbAgoU 67bOAasHv4I空空空空空空空空空空空空空空空空空空空空空 _3 FrowdVSNW无价体验790旅行和住宿82 459122 2.24 2028 90 v-qsXESnaWk Bl43yFletho UaZWmloW uOKjcAvA Lspmkhchry MA_uAy3xtjwo d06xuriAFyA inAiKQLabsc 5_8;-l8haEKs P2q5rRfGwG0 dGgZ6Uaiotk QB7CVBVWXJJQW7YSW0Q6JCN4 PXBCBjBjBjBjBjBjBjBjBjBjBjBjBjBjGgGjGjGjQQQauPvq7N3pZhHXSmg nMOqSul6DOQ pnigNFLt52Q NticicE6dmc mtij0ez5gGw空空空空空空空空空空空空空空空空空空空空空 ZQgVAD7x5Zo运营05 790新闻与政治204 76850 4.36 400 1451 Rk8syX2b zQ vs7T4XEhg6k uK3isbd0YOQ S-py0ooWFFM vzVMQht96bM qPCjIXEu-tA 7b2JLENkflw bhm8ylJu79g Nuz3K_ipJ0; FVE4; nfg JGPKXRMDT GHUBMQMUSQ 4QCJVTNG Mi5dOtcF8eQ 30_BW6V7V0V0V0V0B9B9JW9JWhLCU6QRi9Pw B0gFx-XU5uo eHqaaLHZHoc cSbZmd-l8n8空空空空空空空空空空空空空空空空空空空 6vbwQ34Lvks StaffGrillo 790新闻与政治307 218869 4.85 763 298 9UWCFxRxW0-YJN0PQ8Mw XoxW2ANtOfE 4b7SXGrkR0c z5 WoRYUVgs nWQT9w5rjMk jc_unBhZLZg ZCAUx9mk-I4在NSN9NxQ8 PF7-KspAAEbWBM 5UIoZIhv1t4 JF6Grubtsm GbK4KKKKbKbKH4K中b3FyIW2J2ek 9jps_FUI_LA 7w55tR_wrFs zj4N6PHNZ10空空空空空空空空空空空空空空空空空空 Wuz3sTzT8BCA NTCoolDool 790新闻与政治54 209286 3.44 334 787(美国)SjPvyPvZvog T9qHvTvN9HvDBWG-E 6HNRBD4KKKKMG ZQgVAD7x5Zo 5Ql UeMBqDY 5QL5QL3F(美国)EqpOXWAAVRI TzrqRqN0O SjPvyPvZvog T9QxHvTvTvN0 cWxTvN0 cWxWxWxWxWxCv8Cv8CfVeyQv0L7LZZZmh4ryAKDJXM qPCjIXEu_tA yUyp4t0j8Ow QONWDfQgSIk空空空空空空空空空空空空空空空空空空空空

其他SQL也尝试过。 选择类别,按类别从年初至今集团中统计(*); 选择类别,按类别从ytd组中统计(视频id); 从年初至今选择不同的类别; 从ytd中选择count(distinct(video_id))

解释另一个sql的计划。 解释从ytd中选择计数(*),其中类别为“新闻与政治”

嗯 抽象语法树: (TOK_查询(TOK_FROM(TOK_TABREF(TOK_TABNAME ytd)))(TOK_插入(TOK_目的地(TOK_DIR TOK_TMP_文件))(TOK_选择(TOK_SELEXPR(TOK_function star count))(TOK_WHERE(((TOK_表格或表格类别)‘新闻与政治’))

阶段依赖关系: 阶段1是根阶段 阶段0是根阶段

阶段计划: 阶段:第一阶段 地图缩小 别名->映射运算符树: 年初至今 表扫描 别名:ytd 过滤算子 谓语: expr:(类别=‘新闻与政治’) 类型:布尔型 选择运算符 按操作员分组 聚合: expr:count() 巴克特集团:假 模式:散列 outputColumnNames:\u col0 减少输出运算符 排序顺序: 标签:-1 值表达式: 表达式:_col0 类型:bigint 减少运算符树: 按操作员分组 聚合: 表达式:计数(值为0) 巴克特集团:假 模式:合并部分 outputColumnNames:\u col0 选择运算符 表达: 表达式:_col0 类型:bigint outputColumnNames:\u col0 文件输出运算符 压缩:假 GlobalTableId:0 表: 输入格式:org.apache.hadoop.mapred.TextInputFormat 输出格式:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

阶段:第0阶段 取数运算符
限制:-1

看到n的可能原因
select category from ytd limit 10;