Excel 使用hadoop进行文本分析的最简单方法?
我正在试验hadoop以及Hortonwork和cloudera的发行版,以便进行一些简单的文本分析。到目前为止,我在网上找到的所有关于wordcount的例子都只涉及一个专栏。但我有很多文本文件,必须应用wordcount,结果必须保存在电子表格中,每个文件都在单独的列中。所以我想知道什么是使用hadoop结合电子表格进行文本分析的最简单方法。我需要的功能是:Excel 使用hadoop进行文本分析的最简单方法?,excel,hadoop,apache-pig,Excel,Hadoop,Apache Pig,我正在试验hadoop以及Hortonwork和cloudera的发行版,以便进行一些简单的文本分析。到目前为止,我在网上找到的所有关于wordcount的例子都只涉及一个专栏。但我有很多文本文件,必须应用wordcount,结果必须保存在电子表格中,每个文件都在单独的列中。所以我想知道什么是使用hadoop结合电子表格进行文本分析的最简单方法。我需要的功能是: 转换成小写 过滤停止字 转置结果 写入excel 用Pig或Rhadoop或其他东西可以轻松实现这一点吗?最好的方式是什么 提前感
- 转换成小写
- 过滤停止字
- 转置结果
- 写入excel
提前感谢Apache pig提供了CSVExcelStorage类,用于加载或存储为csv格式,它使用Excel 2007的csv约定。 除此之外,我还尝试将Pig的结果存储到mongoDB,然后使用rmongodb库将其读入R