python中预测的映射程序和减缩程序
我对Hadoop的实现感到困惑。我已经编写了预测类值的代码。下面是我构建决策树和预测值的代码python中预测的映射程序和减缩程序,python,hadoop,Python,Hadoop,我对Hadoop的实现感到困惑。我已经编写了预测类值的代码。下面是我构建决策树和预测值的代码 import numpy as np import pandas as pd import os import random from sklearn import tree from sklearn.metrics import accuracy_score os.chdir('/home/PYTHON/') data=pd.read_csv('wine.csv') test_scor
import numpy as np
import pandas as pd
import os
import random
from sklearn import tree
from sklearn.metrics import accuracy_score
os.chdir('/home/PYTHON/')
data=pd.read_csv('wine.csv')
test_score=[]
error1=[]
error2=[]
accuracy=[]
n_fold=10
for i in xrange(n_fold):
train_data = data.sample(frac=0.70,random_state=1)
test_data = data.loc[~data.index.isin(train_data.index)]
tree_model = tree.DecisionTreeClassifier()
predictors = train_data.ix[:,0:13]
train_y = train_data.ix[:,13]
model=tree_model.fit(X = predictors, y = train_y)
test_feat = test_data.ix[:,0:13]
test_y = test_data.ix[:,13]
#Finding the class value of each row and the accuracy
test_preds = model.predict(X=test_feat)
test_score.append(i)
test_score[i] = accuracy_score(test_y, test_preds)
print("Accuracy by acc_score", sum(accuracy)/len(accuracy))
我是python和hadoop的初学者。我不知道如何将这个程序划分为mapper和reducer。我只对3个数据节点使用hadoop-2.7.3。我可以在hadoop集群中实现这个程序来预测类值并找到准确度吗?如果不是这样的话,映射器和还原器在预测类和查找精度方面会是什么样子 我没有使用hadoop的经验,但使用hadoop的好处是能够在处理大型数据集时进行扩展。你计划为这个项目处理多少数据?此外,map reduce是一种设计模式,我不认为需要为每个问题都实现它。映射部分获取一些数据并将其转换为对您有用的形式。reduce部分可以做一些不同的事情。减少一些映射数据的一个简单示例就是计算一段数据的出现次数。所以,您将所有出现的情况“减少”为一个数字:一个计数。我使用python执行了单词计数问题,并介绍了hadoop和mapreduce。但我是以平行实施为目标的学术项目。目前,我计划使用大约500万行或更多的数据。我没有使用hadoop的经验,但使用hadoop的好处是能够在处理大型数据集时进行扩展。你计划为这个项目处理多少数据?此外,map reduce是一种设计模式,我不认为需要为每个问题都实现它。映射部分获取一些数据并将其转换为对您有用的形式。reduce部分可以做一些不同的事情。减少一些映射数据的一个简单示例就是计算一段数据的出现次数。所以,您将所有出现的情况“减少”为一个数字:一个计数。我使用python执行了单词计数问题,并介绍了hadoop和mapreduce。但我是以平行实施为目标的学术项目。目前,我计划使用大约500万行或更多的数据。