Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Excel 使用hadoop进行文本分析的最简单方法?_Excel_Hadoop_Apache Pig - Fatal编程技术网

Excel 使用hadoop进行文本分析的最简单方法?

Excel 使用hadoop进行文本分析的最简单方法?,excel,hadoop,apache-pig,Excel,Hadoop,Apache Pig,我正在试验hadoop以及Hortonwork和cloudera的发行版,以便进行一些简单的文本分析。到目前为止,我在网上找到的所有关于wordcount的例子都只涉及一个专栏。但我有很多文本文件,必须应用wordcount,结果必须保存在电子表格中,每个文件都在单独的列中。所以我想知道什么是使用hadoop结合电子表格进行文本分析的最简单方法。我需要的功能是: 转换成小写 过滤停止字 转置结果 写入excel 用Pig或Rhadoop或其他东西可以轻松实现这一点吗?最好的方式是什么 提前感

我正在试验hadoop以及Hortonwork和cloudera的发行版,以便进行一些简单的文本分析。到目前为止,我在网上找到的所有关于wordcount的例子都只涉及一个专栏。但我有很多文本文件,必须应用wordcount,结果必须保存在电子表格中,每个文件都在单独的列中。所以我想知道什么是使用hadoop结合电子表格进行文本分析的最简单方法。我需要的功能是:

  • 转换成小写
  • 过滤停止字
  • 转置结果
  • 写入excel
用Pig或Rhadoop或其他东西可以轻松实现这一点吗?最好的方式是什么


提前感谢

Apache pig提供了CSVExcelStorage类,用于加载或存储为csv格式,它使用Excel 2007的csv约定。 除此之外,我还尝试将Pig的结果存储到mongoDB,然后使用rmongodb库将其读入R