Scala 如何使用Spark hadoopFile方法使用值类型为文本的自定义输入格式?
如何使用Spark hadoopFile方法使用值类型为文本的自定义输入格式?例如,Scala 如何使用Spark hadoopFile方法使用值类型为文本的自定义输入格式?,scala,apache-spark,hadoop,Scala,Apache Spark,Hadoop,如何使用Spark hadoopFile方法使用值类型为文本的自定义输入格式?例如,OmnitureDataFileInputFormat处理Omniture点击流数据 import org.rassee.omniture.hadoop.mapred.OmnitureDataFileInputFormat import java.nio.charset.StandardCharsets import org.apache.hadoop.io.{LongWritable, Text} import
OmnitureDataFileInputFormat
处理Omniture点击流数据
import org.rassee.omniture.hadoop.mapred.OmnitureDataFileInputFormat
import java.nio.charset.StandardCharsets
import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapred.InputFormat
val rddLines: RDD[String] =
sparkSession.sparkContext.hadoopFile(
path = path,
inputFormatClass = classOf[OmnitureDataFileInputFormat],
keyClass = classOf[LongWritable],
valueClass = classOf[Text]
)
.map(_._2.copyBytes()).map(new String(_, StandardCharsets.UTF_8))