在pyspark上导入python库_Python_Amazon S3_Amazon Ec2_Apache Spark_Pyspark

在pyspark上导入python库

python amazon-s3 amazon-ec2 apache-spark pyspark

在pyspark上导入python库,python,amazon-s3,amazon-ec2,apache-spark,pyspark,Python,Amazon S3,Amazon Ec2,Apache Spark,Pyspark,对Python来说是个新手我想读入一些来自S3的XML文件并查询它们。我已连接到AWS，并已启动了一些EC2集群，但我不确定如何导入需要的库获取数据我认为使用xmlutils库将xml转换为json，然后在我可以访问的sqlcontext库中使用read.json将起作用（见下文）编辑我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。（已设置SparkConf和SparkContext）我尝试将函数参数中的xmlutils和“xmlutils”都

对Python来说是个新手

我想读入一些来自S3的XML文件并查询它们。我已连接到AWS，并已启动了一些EC2集群，但我不确定如何导入需要的库获取数据

我认为使用xmlutils库将xml转换为json，然后在我可以访问的sqlcontext库中使用read.json将起作用（见下文）

编辑

我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。（已设置SparkConf和SparkContext）

我尝试将函数参数中的xmlutils和“xmlutils”都作为x传递，但没有成功。我做错什么了吗？谢谢

pip和virtualenv在2015.03 AMIs-上默认为Python 2.7安装

上面的站点显示了如何在新的AMI映像上访问pip。

EC2实例上的基本操作系统是什么？无法在EC2上安装OS X。EC2实例上的操作系统是什么，而不是访问它们的机器上的操作系统？它是默认的AMI吗？是的，它是默认的AMI检查安装的软件包。看看您是否可以通过tab complete pip to pip-2.7来安装软件包。同样，请参见-我已经将python27-virtualenv.noarch和python27-pip.noarch列为已安装，但是当我尝试1.sudo pip-2.7安装模块名称中的任何一个时，请参见第2页。sudo pip install modulename或3.virtualenv-2.7 myproject&cd myproject我只收到错误“command pip/virtualenv-2.7 not found”我运行的是运行python 2.7、Spark 1.51的2015.09 AMI，Spark运行的是python 2.7.10

 converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
 converter.convert()

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")

query_results = sqlContext.sql("SELECT * from logs...")

def import_my_special_package(x):
    import my.special.package
    return x

int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()