如何使用Conda Python在本地计算机上安装和使用mmlspark？_Python_Pyspark_Conda_Azure Machine Learning Studio

如何使用Conda Python在本地计算机上安装和使用mmlspark？

python pyspark

如何使用Conda Python在本地计算机上安装和使用mmlspark？,python,pyspark,conda,azure-machine-learning-studio,Python,Pyspark,Conda,Azure Machine Learning Studio,如何使用“英特尔Python 3.6”在本地计算机上安装和使用MMLSpark import numpy as np import pandas as pd import pyspark spark = pyspark.sql.SparkSession.builder.appName("MyApp") \ .config("spark.jars.packages", "Azure:mmlspark:0.13") \ .getOrCreate()

如何使用“英特尔Python 3.6”在本地计算机上安装和使用MMLSpark

import numpy as np
import pandas as pd
import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
            .config("spark.jars.packages", "Azure:mmlspark:0.13") \
            .getOrCreate()

import mmlspark
from mmlspark import TrainClassifier
from pyspark.ml.classification import LogisticRegression
from mmlspark import ComputeModelStatistics, TrainedClassifierModel


dataFilePath = "AdultCensusIncome.csv"
import os, urllib
if not os.path.isfile(dataFilePath):
    urllib.request.urlretrieve("https://mmlspark.azureedge.net/datasets/" + dataFilePath, dataFilePath)
data = spark.createDataFrame(pd.read_csv(dataFilePath, dtype={" hours-per-week": np.float64}))
data = data.select([" education", " marital-status", " hours-per-week", " income"])
train, test = data.randomSplit([0.75, 0.25], seed=123)
train.limit(10).toPandas()

model = TrainClassifier(model=LogisticRegression(), labelCol=" income", numFeatures=256).fit(train)
prediction = model.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

MMLSpark不工作。有人能帮您解决这个问题吗？

您的问题没有正确描述问题，但如果您正在寻找安装命令。那么请看下面,

首先安装pyspark

pip install pyspark

要在现有HDInsight Spark群集上安装MMLSpark，可以在群集头和工作节点上执行脚本操作。有关运行脚本操作的说明，请参阅本指南

脚本操作url为：

如果您正在使用Azure门户运行脚本操作，请转到脚本操作→ 在群集刀片服务器的概述部分提交新的。在Bash脚本URI字段中，输入上面提供的脚本操作URL。标记其余选项，如右侧屏幕截图所示

提交，集群应该在10分钟左右完成配置

原始文件：

尽管这是一个古老的问题，顺便说一句，它非常不合适，但一些人可能仍然受益

为了使本地Spark环境与mmlspark一起工作，必须设置环境变量PYSPARK_SUBMIT_ARGS。由于我正在使用Jupyter，我发现通过脚本~/.Jupyter/Jupyter-env.sh或/etc/profile.d/Jupyter-env.sh（如果您在AWS EC2实例中）设置环境变量很有用。env变量本身应为：

PYSPARK_SUBMIT_ARGS='-packages com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3，org.apache.spark:spark-avro_2.12:2.4.5-repositorieshttps://mmlspark.azureedge.net/maven Pypark shell' 注意，我们还必须将org.apache.spark:spark-avro_2.12:2.4.5冻结为一个与mmlspark一起工作的版本。请随意与他人一起测试

适用于我的完整jupyter-env.sh脚本是：

导出SPARK\u HOME=/HOME/ec2 user/SageMaker/SPARK 导出路径=$SPARK\u HOME/bin:$PATH 导出PYSPARK\u驱动程序\u PYTHON=jupyter 导出PYSPARK\u驱动程序\u PYTHON\u选项='notebook' export PYSPARK_SUBMIT_ARGS='-packages org.apache.hadoop:hadoop aws:3.2.2，com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3，org.apache.spark:spark-avro_2.12:2.4.5-存储库https://mmlspark.azureedge.net/maven Pypark shell' 很明显，您必须将SPARK_主线1更改为指向您的SPARK dir所在的位置。另外，请注意，我选择在PYSPARK_SUBMIT_ARGS中设置hadoop版本，您应该检查已安装的版本

我希望它能帮助其他人，因为我花了一段时间才明白这一点。

干杯

MMLSPARK不起作用并不是真正描述你的问题所在。也许你可以添加更多的细节？好的。仅在Azure上，不可能在本地计算机上运行mmlspark。谢谢你的帮助。@AlexandreMigueldeCarvalho，那根本不是真的。我知道这个问题由来已久，但我刚刚偶然发现了它。我将发布如何使它工作。