Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala spark csv中的多个空值_Scala_Csv_Apache Spark - Fatal编程技术网

Scala spark csv中的多个空值

Scala spark csv中的多个空值,scala,csv,apache-spark,Scala,Csv,Apache Spark,我有一个csv文件,其中有“”(空值)和“N/a”以及“-”都在同一个文件中。我希望它们都作为null读入数据帧。我知道spark csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这显然是不够的 spark有一个悬而未决的问题, 它仍然开放。我想知道解决这个问题最简单的方法 根据我的评论转载: 将字段作为字符串读入数据帧 在那里进行空替换 将字段转换为整数 然后将该数据帧转换为数据集 将它们作为空值“读入”是至关重要的,还是可以将它们读入数据帧(比如字

我有一个csv文件,其中有“”(空值)和“N/a”以及“-”都在同一个文件中。我希望它们都作为null读入数据帧。我知道spark csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这显然是不够的

spark有一个悬而未决的问题,


它仍然开放。我想知道解决这个问题最简单的方法

根据我的评论转载:

  • 将字段作为字符串读入数据帧
  • 在那里进行空替换
  • 将字段转换为整数
  • 然后将该数据帧转换为数据集

将它们作为空值“读入”是至关重要的,还是可以将它们读入数据帧(比如字符串),然后转换为空值?最优雅的解决方案是使用
replaceAll
,并使数据统一。@Combinator,我想根据模式读取它们,并将其用作数据集。因此,某些默认为整数的字段包含“N/A”或“-”之类的值,我希望所有这些值都被解析为null,以便能够读入模式case类的integer字段。所以我更愿意在从文件读取到数据集tself时执行此操作。@philantrovert。我会把它作为最后一个案例。但理想情况下,我希望spark处理整个问题,而不是常规内存中的replaceAll。@Vishnupathish,如果您将字段作为字符串读入数据帧,在那里进行空替换,将字段转换为int,然后将该数据帧转换为数据集,会怎么样?