Hadoop 从SequenceFile触发数据帧
这个很好用Hadoop 从SequenceFile触发数据帧,hadoop,apache-spark,pyspark,sequencefile,Hadoop,Apache Spark,Pyspark,Sequencefile,这个很好用 sqlContext.read.format('orc').load(hdfspath) sqlContext.read.format('parquet').load(hdfspath) 但sequencefile格式不是这样工作的 如何在PySpark中将序列文件作为数据帧读取?使用SparkContext中的sequenceFile方法: sqlContext.read.format('sequencefile').load(hdfspath) 不,是关于一个特殊的案例。我认
sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)
但sequencefile格式不是这样工作的
如何在PySpark中将序列文件作为数据帧读取?使用SparkContext中的
sequenceFile
方法:
sqlContext.read.format('sequencefile').load(hdfspath)
不,是关于一个特殊的案例。我认为不需要进口声明。
from pyspark.sql.functions import input_file_name
df = sc.sequenceFile("/tmp/foo/").toDF()