Scala 如何通过删除字段周围的引号和双引号来格式化CSV数据

Scala 如何通过删除字段周围的引号和双引号来格式化CSV数据,scala,spark-shell,Scala,Spark Shell,我使用的是一个数据集,显然它的每一行都有“双引号”。当我使用浏览器时,默认情况下它是用Excel打开的,所以我看不到它 数据集如下所示(原始): “年龄”、“工作”、“婚姻”、“教育”、“违约”、“余额”、“住房”、“贷款”、“联系人”、“日”、“月”、“持续时间”、“活动”、“pdays”、“上一次”、“poutcome”、“y”----标题58;“管理”;“已婚”;“第三”;“不”;2143;“是”;“不”;“未知”;5.“可能”;261;1;-1.0;“未知”;“否”--行 我使用以下代码

我使用的是一个数据集,显然它的每一行都有“双引号”。当我使用浏览器时,默认情况下它是用Excel打开的,所以我看不到它

数据集如下所示(原始):

“年龄”、“工作”、“婚姻”、“教育”、“违约”、“余额”、“住房”、“贷款”、“联系人”、“日”、“月”、“持续时间”、“活动”、“pdays”、“上一次”、“poutcome”、“y”----标题58;“管理”;“已婚”;“第三”;“不”;2143;“是”;“不”;“未知”;5.“可能”;261;1;-1.0;“未知”;“否”--行

我使用以下代码:

val bank = spark.read.format("com.databricks.spark.csv").
 | option("header", true).
 | option("ignoreLeadingWhiteSpace", true).
 | option("inferSchema", true).
 | option("quote", "").
 | option("delimiter", ";").
 | load("bank_dataset.csv")
但我得到的是: 我想要的是:

如果您仍有此原始数据并希望清理,则可以使用
regex\u replace
替换所有双引号

输出:

+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+
|age|job       |marital|education|default|balance|housing|loan|contact|day|month|duration|campaign|pdays|previous|poutcome|y  |
+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+
|58 |management|married|tertiary |no     |2143   |yes    |no  |unknown|5  |may  |261     |1       |-1   |0       |unknown |no |
+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+

这看起来像是无效的csv,您确定您有相同的数据吗?
+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+
|age|job       |marital|education|default|balance|housing|loan|contact|day|month|duration|campaign|pdays|previous|poutcome|y  |
+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+
|58 |management|married|tertiary |no     |2143   |yes    |no  |unknown|5  |may  |261     |1       |-1   |0       |unknown |no |
+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+---+