如何使用Conda Python在本地计算机上安装和使用mmlspark?

如何使用Conda Python在本地计算机上安装和使用mmlspark?,python,pyspark,conda,azure-machine-learning-studio,Python,Pyspark,Conda,Azure Machine Learning Studio,如何使用“英特尔Python 3.6”在本地计算机上安装和使用MMLSpark import numpy as np import pandas as pd import pyspark spark = pyspark.sql.SparkSession.builder.appName("MyApp") \ .config("spark.jars.packages", "Azure:mmlspark:0.13") \ .getOrCreate()

如何使用“英特尔Python 3.6”在本地计算机上安装和使用MMLSpark

import numpy as np
import pandas as pd
import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
            .config("spark.jars.packages", "Azure:mmlspark:0.13") \
            .getOrCreate()

import mmlspark
from mmlspark import TrainClassifier
from pyspark.ml.classification import LogisticRegression
from mmlspark import ComputeModelStatistics, TrainedClassifierModel


dataFilePath = "AdultCensusIncome.csv"
import os, urllib
if not os.path.isfile(dataFilePath):
    urllib.request.urlretrieve("https://mmlspark.azureedge.net/datasets/" + dataFilePath, dataFilePath)
data = spark.createDataFrame(pd.read_csv(dataFilePath, dtype={" hours-per-week": np.float64}))
data = data.select([" education", " marital-status", " hours-per-week", " income"])
train, test = data.randomSplit([0.75, 0.25], seed=123)
train.limit(10).toPandas()

model = TrainClassifier(model=LogisticRegression(), labelCol=" income", numFeatures=256).fit(train)
prediction = model.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

MMLSpark不工作。有人能帮您解决这个问题吗?

您的问题没有正确描述问题,但如果您正在寻找安装命令。那么请看下面,

首先安装pyspark

pip install pyspark
要在现有HDInsight Spark群集上安装MMLSpark,可以在群集头和工作节点上执行脚本操作。有关运行脚本操作的说明,请参阅本指南

脚本操作url为:

如果您正在使用Azure门户运行脚本操作,请转到脚本操作→ 在群集刀片服务器的概述部分提交新的。在Bash脚本URI字段中,输入上面提供的脚本操作URL。标记其余选项,如右侧屏幕截图所示

提交,集群应该在10分钟左右完成配置

原始文件:

尽管这是一个古老的问题,顺便说一句,它非常不合适,但一些人可能仍然受益

为了使本地Spark环境与mmlspark一起工作,必须设置环境变量PYSPARK_SUBMIT_ARGS。由于我正在使用Jupyter,我发现通过脚本~/.Jupyter/Jupyter-env.sh或/etc/profile.d/Jupyter-env.sh(如果您在AWS EC2实例中)设置环境变量很有用。env变量本身应为:

PYSPARK_SUBMIT_ARGS='-packages com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3,org.apache.spark:spark-avro_2.12:2.4.5-repositorieshttps://mmlspark.azureedge.net/maven Pypark shell' 注意,我们还必须将org.apache.spark:spark-avro_2.12:2.4.5冻结为一个与mmlspark一起工作的版本。请随意与他人一起测试

适用于我的完整jupyter-env.sh脚本是:

导出SPARK\u HOME=/HOME/ec2 user/SageMaker/SPARK 导出路径=$SPARK\u HOME/bin:$PATH 导出PYSPARK\u驱动程序\u PYTHON=jupyter 导出PYSPARK\u驱动程序\u PYTHON\u选项='notebook' export PYSPARK_SUBMIT_ARGS='-packages org.apache.hadoop:hadoop aws:3.2.2,com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3,org.apache.spark:spark-avro_2.12:2.4.5-存储库https://mmlspark.azureedge.net/maven Pypark shell' 很明显,您必须将SPARK_主线1更改为指向您的SPARK dir所在的位置。另外,请注意,我选择在PYSPARK_SUBMIT_ARGS中设置hadoop版本,您应该检查已安装的版本

我希望它能帮助其他人,因为我花了一段时间才明白这一点。
干杯

MMLSPARK不起作用并不是真正描述你的问题所在。也许你可以添加更多的细节?好的。仅在Azure上,不可能在本地计算机上运行mmlspark。谢谢你的帮助。@AlexandreMigueldeCarvalho,那根本不是真的。我知道这个问题由来已久,但我刚刚偶然发现了它。我将发布如何使它工作。