Python 使用pyspark的文本文件中的元素总和_Python_Apache Spark_Pyspark

Python 使用pyspark的文本文件中的元素总和

python apache-spark pyspark

Python 使用pyspark的文本文件中的元素总和,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,使用pyspark，我可以在文本文件中找到数据的计数值。但我想要的是，我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示： 1.3515 1.3475 1.3375 1.3345 1.3315 1.3315 我的代码： sc = SparkContext(appName="RangeOfDoviz") RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt") [已解决]您可以使用SparkDa

使用pyspark，我可以在文本文件中找到数据的计数值。但我想要的是，我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示：

1.3515
1.3475
1.3375
1.3345
1.3315
1.3315

我的代码：

sc = SparkContext(appName="RangeOfDoviz")
RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt")

[已解决]

您可以使用Spark

DataFrames

：

from pyspark.sql.types import *

spark.read \
    .schema(StructType([StructField("value", DoubleType())])) \
    .text(path) \
    .groupBy().sum() \
    .first()[0]

或

它需要更多的代码，但应该比使用RDD更快。

您可以使用Spark

DataFrames

：

from pyspark.sql.types import *

spark.read \
    .schema(StructType([StructField("value", DoubleType())])) \
    .text(path) \
    .groupBy().sum() \
    .first()[0]

或

它需要更多的代码，但应该比使用RDD更快。

在普通python中可以很容易地做到这一点。。。pyspark有必要吗？我需要用PySparkI来做这件事。我要冒险说一下

RDD.sum（）

错误消息：返回self.mapPartitions（lambda x:[sum（x）]）.fold（0，operator.add）TypeError：不支持的+操作数类型：'int'和'unicode'尝试

RDD.map（float.sum（）

在普通python中你可以很容易做到这一点。。。有必要使用pyspark吗？我需要使用pyspark来做这件事。我要冒险说：

RDD.sum（）

错误消息：返回self.mapPartitions（lambda x:[sum（x）]）.fold（0，operator.add）TypeError:不支持+：'int'和'unicode'的操作数类型try

RDD.map（float.sum（）