Hadoop 训练管理员解释数据

Hadoop 训练管理员解释数据,hadoop,mapreduce,mahout,Hadoop,Mapreduce,Mahout,我有一组问题属于客户满意度调查。用户的答案以CSV文件的形式提供。根据问题的答案,将布尔值0和1分配给每个用户的响应,分别描述糟糕和良好的体验 我的任务是使用Mahout来训练一个带有一组问题的模型,以便它能够分析和回答稍后提供给它的问题。由于输入数据非常庞大,我必须将MapReduce与之结合使用 不幸的是,我不知道怎么做,也不知道怎么做。有没有人能指导我应该在哪种模式上训练,我应该如何训练 另外,我不懂机器学习。因此,如果使用了术语,请尝试解释一下。在你说你希望能够自动回答问题的部分,我把你

我有一组问题属于客户满意度调查。用户的答案以CSV文件的形式提供。根据问题的答案,将布尔值0和1分配给每个用户的响应,分别描述糟糕和良好的体验

我的任务是使用Mahout来训练一个带有一组问题的模型,以便它能够分析和回答稍后提供给它的问题。由于输入数据非常庞大,我必须将MapReduce与之结合使用

不幸的是,我不知道怎么做,也不知道怎么做。有没有人能指导我应该在哪种模式上训练,我应该如何训练


另外,我不懂机器学习。因此,如果使用了术语,请尝试解释一下。

在你说你希望能够自动回答问题的部分,我把你弄糊涂了。这些问题是否与培训中的问题相同?什么是好答案?还是我误解了,你只是想把未来的答案归为0或1?通过一些分析,我将把一组已回答的问题(比如1000个)归为0或1。然后,回答问题集的其余部分(比如100k),我想使用Mahout将它们分类为0或1,因为手动操作很困难。我建议使用70-80%的数据进行培训,其余的用于测试。当你拥有超过10万件物品时,仅使用1k进行训练可能无法获得准确的精确度。一般的经验法则是,用于训练的数据越多,算法的性能就越好,因此,如果有数据,应该尽可能多地用于训练。另外,如果你只有10万个项目,不确定你是否真的需要在Hadoop中做,像Weka这样的东西应该做得很好。这些是样本记录,1k和10万。主要数据会大得多。如果我想使用Hadoop和Mahout,我该如何继续?