Python 在AWS EMR群集上使用PySpark创建拼花地板文件_Python_Amazon Web Services_Apache Spark_Pyspark_Emr

Python 在AWS EMR群集上使用PySpark创建拼花地板文件

python amazon-web-services apache-spark pyspark

Python 在AWS EMR群集上使用PySpark创建拼花地板文件,python,amazon-web-services,apache-spark,pyspark,emr,Python,Amazon Web Services,Apache Spark,Pyspark,Emr,我正试图用Datbricks的CSV包来创建一个Spark集群，这样我就可以创建拼花文件，也可以用Spark做一些事情这是在AWS EMR中完成的，因此我认为我没有将这些选项放在正确的位置这是我想在集群启动时发送给集群的命令：sparkshell--packages com.databricks:spark-csv_2.10:1.4.0--master thread--driver memory 4g--executor memory 2g。我试着把它放在一个火花台阶上-这是正确的吗如果集

我正试图用Datbricks的CSV包来创建一个Spark集群，这样我就可以创建拼花文件，也可以用Spark做一些事情

这是在AWS EMR中完成的，因此我认为我没有将这些选项放在正确的位置

这是我想在集群启动时发送给集群的命令：

sparkshell--packages com.databricks:spark-csv_2.10:1.4.0--master thread--driver memory 4g--executor memory 2g

。我试着把它放在一个火花台阶上-这是正确的吗

如果集群在没有正确安装的情况下启动，如何使用该软件包启动PySpark？这是否正确：

pyspark--packages com.databricks:spark-csv_2.10:1.4.0

？我不知道它是否安装正确。不确定要测试哪些函数

关于实际使用该软件包，创建拼花地板文件是否正确：

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false').load('s3n://bucketname/nation.tbl', schema = customSchema)

#is it this option1
df.write.parquet("s3n://bucketname/nation_parquet.parquet")

#or this option2
df.select('nation_id', 'name', 'some_int', 'comment').write.parquet('com.databricks.spark.csv').save('s3n://bucketname/nation_parquet.tbl')

我找不到最近（2015年年中及以后）关于编写拼花地板文件的任何文档

编辑：

好的，现在我不确定是否正确创建了数据帧。如果我尝试对它运行一些

select

查询并显示结果集，我不会得到任何结果，而是会出现一些错误。以下是我尝试跑步的内容：

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false').load('s3n://bucketname/nation.tbl', schema = customSchema)

df.registerTempTable("region2")

tcp_interactions = sqlContext.sql(""" SELECT nation_id, name, comment FROM region2 WHERE nation_id > 1 """)

tcp_interactions.show()
#get some weird Java error:
#Caused by: java.lang.NumberFormatException: For input string: "0|ALGERIA|0| haggle. carefully final deposits detect slyly agai|"