Csv 使用Pig拉丁语计算唯一值的出现次数_Csv_Ubuntu_Apache Pig

Csv 使用Pig拉丁语计算唯一值的出现次数

csv ubuntu apache-pig

Csv 使用Pig拉丁语计算唯一值的出现次数,csv,ubuntu,apache-pig,Csv,Ubuntu,Apache Pig,我正在尝试使用ApachePig拉丁语找出2019年12月1日下载量最大的5个RStudio软件包。我需要的栏目是'r_os'和'package'。这是我的密码： A = load '2019-12-01.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER'); B = FOREACH A GENERATE r_os,package;

我正在尝试使用ApachePig拉丁语找出2019年12月1日下载量最大的5个RStudio软件包。我需要的栏目是'r_os'和'package'。这是我的密码：

A = load '2019-12-01.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER');
B = FOREACH A GENERATE r_os,package;
C = DISTINCT B;
D = GROUP C BY package;
result = FOREACH C GENERATE flatten($0), COUNT($1) as package_distr;

我得到以下结果，这是错误的：

(magrittr,10)
(htmltools,10)
(httr,10)
(lubridate,10)
(ellipsis,10)

出现的次数应该更多，而不是10次。我期望的输出应该大致如下所示：

(magrittr,10000)
(htmltools,9876)
(httr,8700)
(lubridate,5320)
(ellipsis,3000)

知道我做错了什么吗？谢谢

group是包名，C是对C进行分组时生成的包名，然后我们计算

result = FOREACH D GENERATE group, COUNT(C) as package_distr;