python中预测的映射程序和减缩程序_Python_Hadoop

python中预测的映射程序和减缩程序

python hadoop

python中预测的映射程序和减缩程序,python,hadoop,Python,Hadoop,我对Hadoop的实现感到困惑。我已经编写了预测类值的代码。下面是我构建决策树和预测值的代码 import numpy as np import pandas as pd import os import random from sklearn import tree from sklearn.metrics import accuracy_score os.chdir('/home/PYTHON/') data=pd.read_csv('wine.csv') test_scor

我对Hadoop的实现感到困惑。我已经编写了预测类值的代码。下面是我构建决策树和预测值的代码

import numpy as np

import pandas as pd

import os

import random

from sklearn import tree

from sklearn.metrics import accuracy_score

os.chdir('/home/PYTHON/')
data=pd.read_csv('wine.csv')


test_score=[]
error1=[]
error2=[]
accuracy=[]

n_fold=10

for i in xrange(n_fold):

    train_data = data.sample(frac=0.70,random_state=1)

    test_data = data.loc[~data.index.isin(train_data.index)]    

    tree_model = tree.DecisionTreeClassifier()

    predictors = train_data.ix[:,0:13]

    train_y = train_data.ix[:,13]

    model=tree_model.fit(X = predictors, y = train_y)

    test_feat = test_data.ix[:,0:13]

    test_y = test_data.ix[:,13]

    #Finding the class value of each row and the accuracy

    test_preds = model.predict(X=test_feat)

    test_score.append(i)

    test_score[i] = accuracy_score(test_y, test_preds)

print("Accuracy by acc_score", sum(accuracy)/len(accuracy))

我是python和hadoop的初学者。我不知道如何将这个程序划分为mapper和reducer。我只对3个数据节点使用hadoop-2.7.3。我可以在hadoop集群中实现这个程序来预测类值并找到准确度吗？如果不是这样的话，映射器和还原器在预测类和查找精度方面会是什么样子

我没有使用hadoop的经验，但使用hadoop的好处是能够在处理大型数据集时进行扩展。你计划为这个项目处理多少数据？此外，map reduce是一种设计模式，我不认为需要为每个问题都实现它。映射部分获取一些数据并将其转换为对您有用的形式。reduce部分可以做一些不同的事情。减少一些映射数据的一个简单示例就是计算一段数据的出现次数。所以，您将所有出现的情况“减少”为一个数字：一个计数。我使用python执行了单词计数问题，并介绍了hadoop和mapreduce。但我是以平行实施为目标的学术项目。目前，我计划使用大约500万行或更多的数据。我没有使用hadoop的经验，但使用hadoop的好处是能够在处理大型数据集时进行扩展。你计划为这个项目处理多少数据？此外，map reduce是一种设计模式，我不认为需要为每个问题都实现它。映射部分获取一些数据并将其转换为对您有用的形式。reduce部分可以做一些不同的事情。减少一些映射数据的一个简单示例就是计算一段数据的出现次数。所以，您将所有出现的情况“减少”为一个数字：一个计数。我使用python执行了单词计数问题，并介绍了hadoop和mapreduce。但我是以平行实施为目标的学术项目。目前，我计划使用大约500万行或更多的数据。