Apache spark 使用分区从S3读取RC文件pyspark 2.0.0_Apache Spark_Amazon S3_Pyspark_Spark Dataframe_Rc

Apache spark 使用分区从S3读取RC文件pyspark 2.0.0

apache-spark amazon-s3 pyspark

Apache spark 使用分区从S3读取RC文件pyspark 2.0.0,apache-spark,amazon-s3,pyspark,spark-dataframe,rc,Apache Spark,Amazon S3,Pyspark,Spark Dataframe,Rc,是否有一种方法可以将存储在S3中的已分区RC文件加载到pyspark Dataframe 2.0.0中？我已经找到了一种将RCFile（从S3）加载到pyspark的方法 from pyspark.sql import HiveContext spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate() sc = spark.sparkContext

是否有一种方法可以将存储在S3中的已分区RC文件加载到pyspark Dataframe 2.0.0中？我已经找到了一种将RCFile（从S3）加载到pyspark的方法

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'")
df = sqlContext.sql("select * from table1")

可以使用spark submit运行上述操作。

注意：您需要在wards上为EMR版本5.x启用hivesupport（就像我在代码的第2行中所做的一样）。

我已经找到了一种将RCR文件（从s3）加载到pyspark的方法

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'")
df = sqlContext.sql("select * from table1")

可以使用spark submit运行上述操作。

注意：您需要在wards上为EMR 5.x版启用hivesupport（就像我在代码第2行中所做的那样）。

这是一种用于存储数据的柱状文件格式。与csv格式相比，性能更好。这是一种用于存储数据的柱状文件格式。与csv格式相比，性能更好