Spark读取字符串内带逗号的csv

Spark读取字符串内带逗号的csv,csv,pyspark,delimiter,databricks,Csv,Pyspark,Delimiter,Databricks,53638122411,大型购物者复古红佩斯利,10,12/1/2010 9:41,1.9515311,英国 “53638182567”,“航空休息室,金属标志”,2010年1月2日9:41,2.115311,英国” 53638121672,白色斑点红色陶瓷抽屉把手,6,12/1/2010 9:41,1.2515311,英国 这些行是csv文件中的行示例。 我试图在Databricks中阅读它,使用: df = spark.read.csv ('file.csv', sep=',', infer

53638122411,大型购物者复古红佩斯利,10,12/1/2010 9:41,1.9515311,英国

“53638182567”,“航空休息室,金属标志”,2010年1月2日9:41,2.115311,英国”

53638121672,白色斑点红色陶瓷抽屉把手,6,12/1/2010 9:41,1.2515311,英国

这些行是csv文件中的行示例。 我试图在Databricks中阅读它,使用:

df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')
<>但是,中间的线和其他类似的线由于字符串中的逗号而没有进入正确的列。如何解决此问题?

将报价设置为:

““””
df=spark.read.csv('file.csv',sep=','inferSchema='true',quote='
看起来您的数据有双引号-因此在读取数据时,它会将双引号视为字符串的开始和结束

编辑:我还假设这个部分会出现问题:

“航空休息室,金属标志”
将报价设置为:

““””
df=spark.read.csv('file.csv',sep=','inferSchema='true',quote='
看起来您的数据有双引号-因此在读取数据时,它会将双引号视为字符串的开始和结束

编辑:我还假设这个部分会出现问题:

“航空休息室,金属标志”

嗨!谢谢兰维尔的帮助!实际上我已经试过了,但它似乎只接受一个字符,所以它仍然不起作用。问题似乎来自这样一个事实:在上传到databricks之前,我使用Excel打开文件查看数据,Excel在行的开头和结尾添加了奇怪的双引号,字符串之间带有逗号(并将双引号加倍以标识字符串)。一位同事警告说,我刚刚解决了这个问题,从源代码处再次下载了这个文件,并在打开它之前上传到databricks!啊,又来了,哈哈。很高兴你知道了。嗨!谢谢兰维尔的帮助!实际上我已经试过了,但它似乎只接受一个字符,所以它仍然不起作用。问题似乎来自这样一个事实:在上传到databricks之前,我使用Excel打开文件查看数据,Excel在行的开头和结尾添加了奇怪的双引号,字符串之间带有逗号(并将双引号加倍以标识字符串)。一位同事警告说,我刚刚解决了这个问题,从源代码处再次下载了这个文件,并在打开它之前上传到databricks!啊,又来了,哈哈。很高兴你明白了。