pyspark读取制表符分隔符的行为与预期不符_Pyspark

pyspark读取制表符分隔符的行为与预期不符

pyspark

pyspark读取制表符分隔符的行为与预期不符,pyspark,Pyspark,我使用的是Spark 2.4，我试图读取一个以制表符分隔的文件，但是，虽然它确实读取了该文件，但它没有正确解析分隔符测试文件，例如 $ cat file.tsv col1 col2 1 abc 2 def 文件的制表符分隔正确： $ cat -A file.tsv col1^Icol2$ 1^Iabc$ 2^Idef$ 我尝试了“delimiter=“\t”和sep=“\t”，但都没有给出预期的结果 df = spark.read.format("c

我使用的是Spark 2.4，我试图读取一个以制表符分隔的文件，但是，虽然它确实读取了该文件，但它没有正确解析分隔符

测试文件，例如

$ cat file.tsv
col1    col2
1       abc
2       def

文件的制表符分隔正确：

$ cat -A file.tsv
col1^Icol2$
1^Iabc$
2^Idef$

我尝试了

“delimiter=“\t”

和

sep=“\t”

，但都没有给出预期的结果

df = spark.read.format("csv") \
    .option("header", "true") \
    .option("delimiter", "\t") \
    .option("inferSchema","true") \
    .load("file.tsv")

读取的结果是一个单列字符串

df.show(10,False)
+---------+
|col1   col2|
+---------+
|1      abc    |
|2      def    |
+---------+

我是做错了什么，还是在阅读之前必须对文件进行预处理以将tab转换为pipe？

这在我的计算机上非常有效。我无法重现此问题。好吧，这很好，但这对我来说有点奇怪。我使用的是

Spark 2.4.7版

和

Python 3.7.4版

。我发现了问题，这与代码无关，是由于未更新的错误配置造成的。谢谢。

df.show(10,False)
+---------+
|col1   col2|
+---------+
|1      abc    |
|2      def    |
+---------+