Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在RDD的筛选器转换中未获得预期结果_Apache Spark_Pyspark_Jupyter Notebook_Rdd - Fatal编程技术网

Apache spark 在RDD的筛选器转换中未获得预期结果

Apache spark 在RDD的筛选器转换中未获得预期结果,apache-spark,pyspark,jupyter-notebook,rdd,Apache Spark,Pyspark,Jupyter Notebook,Rdd,我已经加载了一个文本文件并应用了转换(过滤器),但没有得到预期的结果 stopwords = ['MP','UP'] 2 rdd3 = ARDD.filter(lambda x: x not in stopwords) 3 rdd3.take(10) (2) Spark Jobs Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab '] 您的问题似乎是ARDD包含一个字符串元素和所有单词。 试着以不同的方式加载数

我已经加载了一个文本文件并应用了转换(过滤器),但没有得到预期的结果

stopwords = ['MP','UP']
2
rdd3 = ARDD.filter(lambda x: x not in stopwords)
3
rdd3.take(10)
(2) Spark Jobs
Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab ']

您的问题似乎是
ARDD
包含一个字符串元素和所有单词。
试着以不同的方式加载数据,一行一个字,你的过滤器就会工作

如果您在pyspark中工作,那么为什么要使用RDD而不是DataFrame???@Atlasbravos我在DataFrame中使用了pyspark。所以我试着用RDD。这是问题的原因吗?什么是ARDD?请elaborate@PrathikKini我刚刚命名了一个RDD ARDD
ARDD = sc.parallelize(['MP' , 'rajasthan', 'UP' , 'Kashmir' , 'delhi' , 'haryana' , 'punjab'])
stopwords = ['MP','UP']
rdd3 = ARDD.filter(lambda x: x not in stopwords)
rdd3.take(10)

Out[10]: ['rajasthan', 'Kashmir', 'delhi', 'haryana', 'punjab']