Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 从SequenceFile触发数据帧_Hadoop_Apache Spark_Pyspark_Sequencefile - Fatal编程技术网

Hadoop 从SequenceFile触发数据帧

Hadoop 从SequenceFile触发数据帧,hadoop,apache-spark,pyspark,sequencefile,Hadoop,Apache Spark,Pyspark,Sequencefile,这个很好用 sqlContext.read.format('orc').load(hdfspath) sqlContext.read.format('parquet').load(hdfspath) 但sequencefile格式不是这样工作的 如何在PySpark中将序列文件作为数据帧读取?使用SparkContext中的sequenceFile方法: sqlContext.read.format('sequencefile').load(hdfspath) 不,是关于一个特殊的案例。我认

这个很好用

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)
但sequencefile格式不是这样工作的


如何在PySpark中将序列文件作为数据帧读取?

使用SparkContext中的
sequenceFile
方法:

sqlContext.read.format('sequencefile').load(hdfspath)

不,是关于一个特殊的案例。我认为不需要进口声明。
from pyspark.sql.functions import input_file_name 

df = sc.sequenceFile("/tmp/foo/").toDF()