在pyspark上导入python库
对Python来说是个新手 我想读入一些来自S3的XML文件并查询它们。我已连接到AWS,并已启动了一些EC2集群,但我不确定如何导入需要的库 获取数据 我认为使用xmlutils库将xml转换为json,然后在我可以访问的sqlcontext库中使用read.json将起作用(见下文) 编辑 我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。(已设置SparkConf和SparkContext)在pyspark上导入python库,python,amazon-s3,amazon-ec2,apache-spark,pyspark,Python,Amazon S3,Amazon Ec2,Apache Spark,Pyspark,对Python来说是个新手 我想读入一些来自S3的XML文件并查询它们。我已连接到AWS,并已启动了一些EC2集群,但我不确定如何导入需要的库 获取数据 我认为使用xmlutils库将xml转换为json,然后在我可以访问的sqlcontext库中使用read.json将起作用(见下文) 编辑 我试图使用这段代码从cloudera链接在Spark上的虚拟环境中安装xmlutils。(已设置SparkConf和SparkContext) 我尝试将函数参数中的xmlutils和“xmlutils”都
我尝试将函数参数中的xmlutils和“xmlutils”都作为x传递,但没有成功。我做错什么了吗?谢谢pip和virtualenv在2015.03 AMIs-上默认为Python 2.7安装
上面的站点显示了如何在新的AMI映像上访问pip。EC2实例上的基本操作系统是什么?无法在EC2上安装OS X。EC2实例上的操作系统是什么,而不是访问它们的机器上的操作系统?它是默认的AMI吗?是的,它是默认的AMI检查安装的软件包。看看您是否可以通过tab complete pip to pip-2.7来安装软件包。同样,请参见-我已经将python27-virtualenv.noarch和python27-pip.noarch列为已安装,但是当我尝试1.sudo pip-2.7安装模块名称中的任何一个时,请参见第2页。sudo pip install modulename或3.virtualenv-2.7 myproject&cd myproject我只收到错误“command pip/virtualenv-2.7 not found”我运行的是运行python 2.7、Spark 1.51的2015.09 AMI,Spark运行的是python 2.7.10
converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
converter.convert()
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")
query_results = sqlContext.sql("SELECT * from logs...")
def import_my_special_package(x):
import my.special.package
return x
int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()