Python 使用pyspark的文本文件中的元素总和
使用pyspark,我可以在文本文件中找到数据的计数值。但我想要的是,我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示: 1.3515Python 使用pyspark的文本文件中的元素总和,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,使用pyspark,我可以在文本文件中找到数据的计数值。但我想要的是,我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示: 1.3515 1.3475 1.3375 1.3345 1.3315 1.3315 我的代码: sc = SparkContext(appName="RangeOfDoviz") RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt") [已解决]您可以使用SparkDa
1.3475
1.3375
1.3345
1.3315
1.3315 我的代码:
sc = SparkContext(appName="RangeOfDoviz")
RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt")
[已解决]您可以使用Spark
DataFrames
:
from pyspark.sql.types import *
spark.read \
.schema(StructType([StructField("value", DoubleType())])) \
.text(path) \
.groupBy().sum() \
.first()[0]
或
它需要更多的代码,但应该比使用RDD更快。您可以使用Spark
DataFrames
:
from pyspark.sql.types import *
spark.read \
.schema(StructType([StructField("value", DoubleType())])) \
.text(path) \
.groupBy().sum() \
.first()[0]
或
它需要更多的代码,但应该比使用RDD更快。在普通python中可以很容易地做到这一点。。。pyspark有必要吗?我需要用PySparkI来做这件事。我要冒险说一下
RDD.sum()
错误消息:返回self.mapPartitions(lambda x:[sum(x)]).fold(0,operator.add)TypeError:不支持的+操作数类型:'int'和'unicode'尝试RDD.map(float.sum()
在普通python中你可以很容易做到这一点。。。有必要使用pyspark吗?我需要使用pyspark来做这件事。我要冒险说:RDD.sum()
错误消息:返回self.mapPartitions(lambda x:[sum(x)]).fold(0,operator.add)TypeError:不支持+:'int'和'unicode'的操作数类型tryRDD.map(float.sum()