在pyspark上导入python库

在pyspark上导入python库,python,amazon-s3,amazon-ec2,apache-spark,pyspark,Python,Amazon S3,Amazon Ec2,Apache Spark,Pyspark,对Python来说是个新手 我想读入一些来自S3的XML文件并查询它们。我已连接到AWS,并已启动了一些EC2集群,但我不确定如何导入需要的库 获取数据 我认为使用xmlutils库将xml转换为json,然后在我可以访问的sqlcontext库中使用read.json将起作用(见下文) 编辑 我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。(已设置SparkConf和SparkContext) 我尝试将函数参数中的xmlutils和“xmlutils”都

对Python来说是个新手

我想读入一些来自S3的XML文件并查询它们。我已连接到AWS,并已启动了一些EC2集群,但我不确定如何导入需要的库 获取数据

我认为使用xmlutils库将xml转换为json,然后在我可以访问的sqlcontext库中使用read.json将起作用(见下文)

编辑

我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。(已设置SparkConf和SparkContext)


我尝试将函数参数中的xmlutils和“xmlutils”都作为x传递,但没有成功。我做错什么了吗?谢谢

pip和virtualenv在2015.03 AMIs-上默认为Python 2.7安装


上面的站点显示了如何在新的AMI映像上访问pip。

EC2实例上的基本操作系统是什么?无法在EC2上安装OS X。EC2实例上的操作系统是什么,而不是访问它们的机器上的操作系统?它是默认的AMI吗?是的,它是默认的AMI检查安装的软件包。看看您是否可以通过tab complete pip to pip-2.7来安装软件包。同样,请参见-我已经将python27-virtualenv.noarch和python27-pip.noarch列为已安装,但是当我尝试1.sudo pip-2.7安装模块名称中的任何一个时,请参见第2页。sudo pip install modulename或3.virtualenv-2.7 myproject&cd myproject我只收到错误“command pip/virtualenv-2.7 not found”我运行的是运行python 2.7、Spark 1.51的2015.09 AMI,Spark运行的是python 2.7.10
 converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
 converter.convert()

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")

query_results = sqlContext.sql("SELECT * from logs...")
def import_my_special_package(x):
    import my.special.package
    return x

int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()