Hadoop 训练管理员解释数据_Hadoop_Mapreduce_Mahout

Hadoop 训练管理员解释数据

hadoop mapreduce

Hadoop 训练管理员解释数据,hadoop,mapreduce,mahout,Hadoop,Mapreduce,Mahout,我有一组问题属于客户满意度调查。用户的答案以CSV文件的形式提供。根据问题的答案，将布尔值0和1分配给每个用户的响应，分别描述糟糕和良好的体验我的任务是使用Mahout来训练一个带有一组问题的模型，以便它能够分析和回答稍后提供给它的问题。由于输入数据非常庞大，我必须将MapReduce与之结合使用不幸的是，我不知道怎么做，也不知道怎么做。有没有人能指导我应该在哪种模式上训练，我应该如何训练另外，我不懂机器学习。因此，如果使用了术语，请尝试解释一下。在你说你希望能够自动回答问题的部分，我把你

我有一组问题属于客户满意度调查。用户的答案以CSV文件的形式提供。根据问题的答案，将布尔值0和1分配给每个用户的响应，分别描述糟糕和良好的体验

我的任务是使用Mahout来训练一个带有一组问题的模型，以便它能够分析和回答稍后提供给它的问题。由于输入数据非常庞大，我必须将MapReduce与之结合使用

不幸的是，我不知道怎么做，也不知道怎么做。有没有人能指导我应该在哪种模式上训练，我应该如何训练

另外，我不懂机器学习。因此，如果使用了术语，请尝试解释一下。

在你说你希望能够自动回答问题的部分，我把你弄糊涂了。这些问题是否与培训中的问题相同？什么是好答案？还是我误解了，你只是想把未来的答案归为0或1？通过一些分析，我将把一组已回答的问题（比如1000个）归为0或1。然后，回答问题集的其余部分（比如100k），我想使用Mahout将它们分类为0或1，因为手动操作很困难。我建议使用70-80%的数据进行培训，其余的用于测试。当你拥有超过10万件物品时，仅使用1k进行训练可能无法获得准确的精确度。一般的经验法则是，用于训练的数据越多，算法的性能就越好，因此，如果有数据，应该尽可能多地用于训练。另外，如果你只有10万个项目，不确定你是否真的需要在Hadoop中做，像Weka这样的东西应该做得很好。这些是样本记录，1k和10万。主要数据会大得多。如果我想使用Hadoop和Mahout，我该如何继续？