Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/277.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用pyspark的文本文件中的元素总和_Python_Apache Spark_Pyspark - Fatal编程技术网

Python 使用pyspark的文本文件中的元素总和

Python 使用pyspark的文本文件中的元素总和,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,使用pyspark,我可以在文本文件中找到数据的计数值。但我想要的是,我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示: 1.3515 1.3475 1.3375 1.3345 1.3315 1.3315 我的代码: sc = SparkContext(appName="RangeOfDoviz") RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt") [已解决]您可以使用SparkDa

使用pyspark,我可以在文本文件中找到数据的计数值。但我想要的是,我想把文本文件中的数字加起来。他怎么能做到呢。部分文本文件如下所示:

1.3515
1.3475
1.3375
1.3345
1.3315
1.3315

我的代码:

sc = SparkContext(appName="RangeOfDoviz")
RDD = sc.textFile("/home/andropat/PycharmProjects/sparking/ranges.txt")

[已解决]

您可以使用Spark
DataFrames

from pyspark.sql.types import *

spark.read \
    .schema(StructType([StructField("value", DoubleType())])) \
    .text(path) \
    .groupBy().sum() \
    .first()[0]


它需要更多的代码,但应该比使用RDD更快。

您可以使用Spark
DataFrames

from pyspark.sql.types import *

spark.read \
    .schema(StructType([StructField("value", DoubleType())])) \
    .text(path) \
    .groupBy().sum() \
    .first()[0]


它需要更多的代码,但应该比使用RDD更快。

在普通python中可以很容易地做到这一点。。。pyspark有必要吗?我需要用PySparkI来做这件事。我要冒险说一下
RDD.sum()
错误消息:返回self.mapPartitions(lambda x:[sum(x)]).fold(0,operator.add)TypeError:不支持的+操作数类型:'int'和'unicode'尝试
RDD.map(float.sum()
在普通python中你可以很容易做到这一点。。。有必要使用pyspark吗?我需要使用pyspark来做这件事。我要冒险说:
RDD.sum()
错误消息:返回self.mapPartitions(lambda x:[sum(x)]).fold(0,operator.add)TypeError:不支持+:'int'和'unicode'的操作数类型try
RDD.map(float.sum()