Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/361.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用python在SPARK中处理非常大的文档时出现大小问题_Python_Hadoop_Apache Spark_Warnings_Pyspark - Fatal编程技术网

使用python在SPARK中处理非常大的文档时出现大小问题

使用python在SPARK中处理非常大的文档时出现大小问题,python,hadoop,apache-spark,warnings,pyspark,Python,Hadoop,Apache Spark,Warnings,Pyspark,我使用python脚本使用SPARK处理存储在hdfs中的xml文档 files = sc.wholeTextFiles("hdfs://xxx/data").collect() 这里的/data目录包含10000多个xml文档。我必须用SPARK处理所有文件。但是,当我尝试运行时,收到以下错误消息: WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended

我使用python脚本使用SPARK处理存储在hdfs中的xml文档

files = sc.wholeTextFiles("hdfs://xxx/data").collect()
这里的/data目录包含10000多个xml文档。我必须用SPARK处理所有文件。但是,当我尝试运行时,收到以下错误消息:

WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB
如何纠正这个错误。有人能帮我解决这个问题吗


提前谢谢

我现在得到了答案。我已使用以下代码最大化分区:
files=sc.wholeTextFiles(“hdfs://xxx/data收集()

这里我只是用一台机器来处理(使用SPARK)。我能用并联机构来解决这个问题吗?我现在知道答案了。我已使用以下代码最大化分区:files=sc.wholeTextFiles(“hdfs://xxx/data“,10).收集()