Apache spark Spark CSV：解析Asciiæ清除的文件；（十六进制E6）_Apache Spark_Apache Spark Sql_Spark Csv

Apache spark Spark CSV：解析Asciiæ清除的文件；（十六进制E6）

apache-spark

Apache spark Spark CSV：解析Asciiæ清除的文件；（十六进制E6）,apache-spark,apache-spark-sql,spark-csv,Apache Spark,Apache Spark Sql,Spark Csv,我用ASCII字符æ（十六进制E6）清除了大型数据文件。我为解析文件而截取的代码如下所示，但解析器似乎没有正确地分割值（我使用Spark 2.4.1）示例文件：有什么建议可以解决这个问题吗你能添加一些示例数据吗？@Srinivas added screenshot你得到了什么输出，是空的吗？是的，我得到了空的。我还尝试删除了周围的双引号。。结果是相同的，现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项？你能添加一些示例数据吗？@Srinivas added screenshot

我用ASCII字符æ（十六进制E6）清除了大型数据文件。我为解析文件而截取的代码如下所示，但解析器似乎没有正确地分割值（我使用Spark 2.4.1）

示例文件：

有什么建议可以解决这个问题吗

你能添加一些示例数据吗？@Srinivas added screenshot你得到了什么输出，是空的吗？是的，我得到了空的。我还尝试删除了周围的双引号。。结果是相同的，现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项？你能添加一些示例数据吗？@Srinivas added screenshot你得到了什么输出，是空值吗？是的，我得到了空值。我还尝试删除了周围的双引号。。结果是相同的，现在我知道了。您的架构不匹配。。是否可以尝试不使用模式选项？

implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {
     def readTeradataCSV(schema: StructType, path: String) : DataFrame = {
        dataFrameReader.option("delimiter", "\u00E6")
          .option("header", "false")
          .option("inferSchema", "false")
          .option("multiLine","true")
          .option("encoding", "UTF-8")
          .schema(schema)
          .csv(path)
     }
  }