Apache spark pySpark DataFrame FloatType(),文件以unicode格式输入
您好,我有以下模式:Apache spark pySpark DataFrame FloatType(),文件以unicode格式输入,apache-spark,dataframe,pyspark,Apache Spark,Dataframe,Pyspark,您好,我有以下模式: [StructField(record_id,StringType,true), StructField(offer_id,FloatType,true)] 我要导入的文件是unicode格式的。 对于sc.textFiles,将unicode设置为false仍然会导致字符串错误。我的问题是,在我将数据加载到数据帧之前,我是否必须清理它(在说它是FloatType之前将unicode转换为float) 做这件事最有效的方法是什么,尤其是当我将场的规模扩大到1000时 在不
[StructField(record_id,StringType,true), StructField(offer_id,FloatType,true)]
我要导入的文件是unicode格式的。
对于sc.textFiles,将unicode设置为false仍然会导致字符串错误。我的问题是,在我将数据加载到数据帧之前,我是否必须清理它(在说它是FloatType之前将unicode转换为float)
做这件事最有效的方法是什么,尤其是当我将场的规模扩大到1000时