Apache spark Spark CSV:解析Asciiæ清除的文件;(十六进制E6)
我用ASCII字符æ(十六进制E6)清除了大型数据文件。我为解析文件而截取的代码如下所示,但解析器似乎没有正确地分割值(我使用Spark 2.4.1) 示例文件: 有什么建议可以解决这个问题吗Apache spark Spark CSV:解析Asciiæ清除的文件;(十六进制E6),apache-spark,apache-spark-sql,spark-csv,Apache Spark,Apache Spark Sql,Spark Csv,我用ASCII字符æ(十六进制E6)清除了大型数据文件。我为解析文件而截取的代码如下所示,但解析器似乎没有正确地分割值(我使用Spark 2.4.1) 示例文件: 有什么建议可以解决这个问题吗 你能添加一些示例数据吗?@Srinivas added screenshot你得到了什么输出,是空的吗?是的,我得到了空的。我还尝试删除了周围的双引号。。结果是相同的,现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项?你能添加一些示例数据吗?@Srinivas added screenshot
你能添加一些示例数据吗?@Srinivas added screenshot你得到了什么输出,是空的吗?是的,我得到了空的。我还尝试删除了周围的双引号。。结果是相同的,现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项?你能添加一些示例数据吗?@Srinivas added screenshot你得到了什么输出,是空值吗?是的,我得到了空值。我还尝试删除了周围的双引号。。结果是相同的,现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项?
implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {
def readTeradataCSV(schema: StructType, path: String) : DataFrame = {
dataFrameReader.option("delimiter", "\u00E6")
.option("header", "false")
.option("inferSchema", "false")
.option("multiLine","true")
.option("encoding", "UTF-8")
.schema(schema)
.csv(path)
}
}