如何在Hadoop中区分输入文件

如何在Hadoop中区分输入文件,hadoop,Hadoop,我只是想了解Hadoop如何区分HDFS中的多个文件。我想用Hadoop做情绪分析(只是一个测试)。我有两个文件positive.json和negative.json。我尝试使用朴素贝叶斯分类法。所以,当我训练模型时,我想知道哪些是正的,哪些是负的。我该怎么做?我没有写任何代码来显示;我被困在第一部分。有什么建议吗?我确实读了很多论文,我想我确实有一个基本的概念。我想看看我是否能在Rhipe中使用这个概念。或者您还有其他更好更简单的解决方案吗?您想使用哪种工具?Mahout还是Spark?@zs

我只是想了解Hadoop如何区分HDFS中的多个文件。我想用Hadoop做情绪分析(只是一个测试)。我有两个文件
positive.json
negative.json
。我尝试使用朴素贝叶斯分类法。所以,当我训练模型时,我想知道哪些是正的,哪些是负的。我该怎么做?我没有写任何代码来显示;我被困在第一部分。有什么建议吗?我确实读了很多论文,我想我确实有一个基本的概念。我想看看我是否能在Rhipe中使用这个概念。或者您还有其他更好更简单的解决方案吗?

您想使用哪种工具?Mahout还是Spark?@zsxwing我必须使用其中一个吗?我只是在想Rhipe。这不能在Rhipe上完成,还是使用Mahout或Spark更好?@zsxwing抱歉,我误解了你的问题。以更好或更容易的为准。@zsxwing I在CDH4(hadoop 2.0.0)上安装了Mahout(0.7)。安装已成功完成,但是当我运行
bin/classify-20newsgroups.sh
/usr/lib/hadoop-hdfs/bin/hdfs:line 24:/usr/lib/hadoop-hdfs/bin/。/libexec/hdfs-config.sh:没有这样的文件或目录/usr/lib/hadoop-hdfs/bin/hdfs:line 140:cygpath:找不到命令/usr/lib/hadoop-hdfs/bin/hdfs:line 172:exec::找不到+set-e、 我不知道这是什么意思。有什么想法吗?