Hadoop 从SequenceFile触发数据帧_Hadoop_Apache Spark_Pyspark_Sequencefile

Hadoop 从SequenceFile触发数据帧

hadoop apache-spark pyspark

Hadoop 从SequenceFile触发数据帧,hadoop,apache-spark,pyspark,sequencefile,Hadoop,Apache Spark,Pyspark,Sequencefile,这个很好用 sqlContext.read.format('orc').load(hdfspath) sqlContext.read.format('parquet').load(hdfspath) 但sequencefile格式不是这样工作的如何在PySpark中将序列文件作为数据帧读取？使用SparkContext中的sequenceFile方法： sqlContext.read.format('sequencefile').load(hdfspath) 不，是关于一个特殊的案例。我认

这个很好用

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

但sequencefile格式不是这样工作的

如何在PySpark中将序列文件作为数据帧读取？

使用SparkContext中的

sequenceFile

方法：

sqlContext.read.format('sequencefile').load(hdfspath)

不，是关于一个特殊的案例。我认为不需要进口声明。

from pyspark.sql.functions import input_file_name 

df = sc.sequenceFile("/tmp/foo/").toDF()