Python 在AWS EMR群集上使用PySpark创建拼花地板文件

Python 在AWS EMR群集上使用PySpark创建拼花地板文件,python,amazon-web-services,apache-spark,pyspark,emr,Python,Amazon Web Services,Apache Spark,Pyspark,Emr,我正试图用Datbricks的CSV包来创建一个Spark集群,这样我就可以创建拼花文件,也可以用Spark做一些事情 这是在AWS EMR中完成的,因此我认为我没有将这些选项放在正确的位置 这是我想在集群启动时发送给集群的命令:sparkshell--packages com.databricks:spark-csv_2.10:1.4.0--master thread--driver memory 4g--executor memory 2g。我试着把它放在一个火花台阶上-这是正确的吗 如果集

我正试图用Datbricks的CSV包来创建一个Spark集群,这样我就可以创建拼花文件,也可以用Spark做一些事情

这是在AWS EMR中完成的,因此我认为我没有将这些选项放在正确的位置

这是我想在集群启动时发送给集群的命令:
sparkshell--packages com.databricks:spark-csv_2.10:1.4.0--master thread--driver memory 4g--executor memory 2g
。我试着把它放在一个火花台阶上-这是正确的吗

如果集群在没有正确安装的情况下启动,如何使用该软件包启动PySpark?这是否正确:
pyspark--packages com.databricks:spark-csv_2.10:1.4.0
?我不知道它是否安装正确。不确定要测试哪些函数

关于实际使用该软件包,创建拼花地板文件是否正确:

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false').load('s3n://bucketname/nation.tbl', schema = customSchema)

#is it this option1
df.write.parquet("s3n://bucketname/nation_parquet.parquet")

#or this option2
df.select('nation_id', 'name', 'some_int', 'comment').write.parquet('com.databricks.spark.csv').save('s3n://bucketname/nation_parquet.tbl')
我找不到最近(2015年年中及以后)关于编写拼花地板文件的任何文档

编辑:

好的,现在我不确定是否正确创建了数据帧。如果我尝试对它运行一些
select
查询并显示结果集,我不会得到任何结果,而是会出现一些错误。以下是我尝试跑步的内容:

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false').load('s3n://bucketname/nation.tbl', schema = customSchema)

df.registerTempTable("region2")

tcp_interactions = sqlContext.sql(""" SELECT nation_id, name, comment FROM region2 WHERE nation_id > 1 """)

tcp_interactions.show()
#get some weird Java error:
#Caused by: java.lang.NumberFormatException: For input string: "0|ALGERIA|0| haggle. carefully final deposits detect slyly agai|"