Spark读取字符串内带逗号的csv_Csv_Pyspark_Delimiter_Databricks

Spark读取字符串内带逗号的csv

csv pyspark

Spark读取字符串内带逗号的csv,csv,pyspark,delimiter,databricks,Csv,Pyspark,Delimiter,Databricks,53638122411，大型购物者复古红佩斯利，10,12/1/2010 9:41,1.9515311，英国 “53638182567”，“航空休息室，金属标志”，2010年1月2日9:41，2.115311，英国” 53638121672，白色斑点红色陶瓷抽屉把手，6,12/1/2010 9:41,1.2515311，英国这些行是csv文件中的行示例。我试图在Databricks中阅读它，使用： df = spark.read.csv ('file.csv', sep=',', infer

53638122411，大型购物者复古红佩斯利，10,12/1/2010 9:41,1.9515311，英国

“53638182567”，“航空休息室，金属标志”，2010年1月2日9:41，2.115311，英国”

53638121672，白色斑点红色陶瓷抽屉把手，6,12/1/2010 9:41,1.2515311，英国

这些行是csv文件中的行示例。我试图在Databricks中阅读它，使用：

df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')

<>但是，中间的线和其他类似的线由于字符串中的逗号而没有进入正确的列。如何解决此问题？

将报价设置为：

““””

df=spark.read.csv（'file.csv'，sep='，'inferSchema='true'，quote='

看起来您的数据有双引号-因此在读取数据时，它会将双引号视为字符串的开始和结束

编辑：我还假设这个部分会出现问题：

“航空休息室，金属标志”

将报价设置为：

““””

df=spark.read.csv（'file.csv'，sep='，'inferSchema='true'，quote='

看起来您的数据有双引号-因此在读取数据时，它会将双引号视为字符串的开始和结束

编辑：我还假设这个部分会出现问题：

“航空休息室，金属标志”

嗨！谢谢兰维尔的帮助！实际上我已经试过了，但它似乎只接受一个字符，所以它仍然不起作用。问题似乎来自这样一个事实：在上传到databricks之前，我使用Excel打开文件查看数据，Excel在行的开头和结尾添加了奇怪的双引号，字符串之间带有逗号（并将双引号加倍以标识字符串）。一位同事警告说，我刚刚解决了这个问题，从源代码处再次下载了这个文件，并在打开它之前上传到databricks！啊，又来了，哈哈。很高兴你知道了。嗨！谢谢兰维尔的帮助！实际上我已经试过了，但它似乎只接受一个字符，所以它仍然不起作用。问题似乎来自这样一个事实：在上传到databricks之前，我使用Excel打开文件查看数据，Excel在行的开头和结尾添加了奇怪的双引号，字符串之间带有逗号（并将双引号加倍以标识字符串）。一位同事警告说，我刚刚解决了这个问题，从源代码处再次下载了这个文件，并在打开它之前上传到databricks！啊，又来了，哈哈。很高兴你明白了。