Sparkyr-如何更改拼花地板数据类型
在读取拼花地板文件时,是否有方法更改列的数据类型? 我正在使用SparkyR的Sparkyr-如何更改拼花地板数据类型,r,apache-spark,parquet,sparklyr,R,Apache Spark,Parquet,Sparklyr,在读取拼花地板文件时,是否有方法更改列的数据类型? 我正在使用SparkyR的spark\u read\u parquet功能,但它没有列选项(来自spark\u read\u csv)来更改它 在csv文件中,我会执行以下操作: data_tbl <- spark_read_csv(sc, "data", path, infer_schema = FALSE, columns = list_with_data_types) data\u tbl只有在读取变量类型上没有内置元数据的数据格
spark\u read\u parquet
功能,但它没有列
选项(来自spark\u read\u csv
)来更改它
在csv文件中,我会执行以下操作:
data_tbl <- spark_read_csv(sc, "data", path, infer_schema = FALSE, columns = list_with_data_types)
data\u tbl只有在读取变量类型上没有内置元数据的数据格式时,指定数据类型才有意义。csv或fwf文件就是这种情况,它们最多在第一行有变量名。因此,此类文件的读取函数具有该功能
这种功能对于内置变量类型的数据格式没有意义,例如Parquet(或R中的.Rds和.Rds)
在这种情况下,您应该:
a) 将拼花地板文件读入Spark
b) 进行必要的数据转换
c) 将转换后的数据保存到拼花地板文件中,覆盖上一个文件