Hadoop bigdata:如何分析pst/电子邮件数据?

Hadoop bigdata:如何分析pst/电子邮件数据?,hadoop,mapreduce,bigdata,apache-tika,pst,Hadoop,Mapreduce,Bigdata,Apache Tika,Pst,我在hdfs中有pst或电子邮件文件。 现在,我想用hadoop中最适合的组件进行文本分析。 我如何开始 我是否必须首先从这些文件中提取实际内容并将其存储在某个位置(例如,在文本文件中),然后对文本文件运行分析 请推荐我 p、 s:我是在谷歌搜索时遇到的。这是唯一的选择还是其他解决方案可用。您尝试了什么?你走了多远?您遇到了哪些错误/问题?我已从outlook电子邮件中创建了示例文件,如(.pst),(.oft),(.msg),(.txt),(.mht),(.htm),并将这些文件加载到HDFS

我在hdfs中有pst或电子邮件文件。 现在,我想用hadoop中最适合的组件进行文本分析。 我如何开始

我是否必须首先从这些文件中提取实际内容并将其存储在某个位置(例如,在文本文件中),然后对文本文件运行分析

请推荐我


p、 s:我是在谷歌搜索时遇到的。这是唯一的选择还是其他解决方案可用。

您尝试了什么?你走了多远?您遇到了哪些错误/问题?我已从outlook电子邮件中创建了示例文件,如(.pst),(.oft),(.msg),(.txt),(.mht),(.htm),并将这些文件加载到HDFS中。现在,我想从这些文件中提取内容并进行分析。我们是否需要使用apache tika来提取内容,或者通过哪个组件可以直接提取和分析数据?我是否可以使用Spark mllib来提取内部使用tika的内容。是这样吗?