pyspark读取制表符分隔符的行为与预期不符
我使用的是Spark 2.4,我试图读取一个以制表符分隔的文件,但是,虽然它确实读取了该文件,但它没有正确解析分隔符 测试文件,例如pyspark读取制表符分隔符的行为与预期不符,pyspark,Pyspark,我使用的是Spark 2.4,我试图读取一个以制表符分隔的文件,但是,虽然它确实读取了该文件,但它没有正确解析分隔符 测试文件,例如 $ cat file.tsv col1 col2 1 abc 2 def 文件的制表符分隔正确: $ cat -A file.tsv col1^Icol2$ 1^Iabc$ 2^Idef$ 我尝试了“delimiter=“\t”和sep=“\t”,但都没有给出预期的结果 df = spark.read.format("c
$ cat file.tsv
col1 col2
1 abc
2 def
文件的制表符分隔正确:
$ cat -A file.tsv
col1^Icol2$
1^Iabc$
2^Idef$
我尝试了“delimiter=“\t”
和sep=“\t”
,但都没有给出预期的结果
df = spark.read.format("csv") \
.option("header", "true") \
.option("delimiter", "\t") \
.option("inferSchema","true") \
.load("file.tsv")
读取的结果是一个单列字符串
df.show(10,False)
+---------+
|col1 col2|
+---------+
|1 abc |
|2 def |
+---------+
我是做错了什么,还是在阅读之前必须对文件进行预处理以将tab转换为pipe?这在我的计算机上非常有效。我无法重现此问题。好吧,这很好,但这对我来说有点奇怪。我使用的是
Spark 2.4.7版
和Python 3.7.4版
。我发现了问题,这与代码无关,是由于未更新的错误配置造成的。谢谢。
df.show(10,False)
+---------+
|col1 col2|
+---------+
|1 abc |
|2 def |
+---------+