Scala spark csv中的多个空值
我有一个csv文件,其中有“”(空值)和“N/a”以及“-”都在同一个文件中。我希望它们都作为null读入数据帧。我知道spark csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这显然是不够的 spark有一个悬而未决的问题,Scala spark csv中的多个空值,scala,csv,apache-spark,Scala,Csv,Apache Spark,我有一个csv文件,其中有“”(空值)和“N/a”以及“-”都在同一个文件中。我希望它们都作为null读入数据帧。我知道spark csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这显然是不够的 spark有一个悬而未决的问题, 它仍然开放。我想知道解决这个问题最简单的方法 根据我的评论转载: 将字段作为字符串读入数据帧 在那里进行空替换 将字段转换为整数 然后将该数据帧转换为数据集 将它们作为空值“读入”是至关重要的,还是可以将它们读入数据帧(比如字
它仍然开放。我想知道解决这个问题最简单的方法 根据我的评论转载:
- 将字段作为字符串读入数据帧
- 在那里进行空替换
- 将字段转换为整数
- 然后将该数据帧转换为数据集
replaceAll
,并使数据统一。@Combinator,我想根据模式读取它们,并将其用作数据集。因此,某些默认为整数的字段包含“N/A”或“-”之类的值,我希望所有这些值都被解析为null,以便能够读入模式case类的integer字段。所以我更愿意在从文件读取到数据集tself时执行此操作。@philantrovert。我会把它作为最后一个案例。但理想情况下,我希望spark处理整个问题,而不是常规内存中的replaceAll。@Vishnupathish,如果您将字段作为字符串读入数据帧,在那里进行空替换,将字段转换为int,然后将该数据帧转换为数据集,会怎么样?