Hadoop 如何在pyspark中更改hdfs块大小？_Hadoop_Apache Spark_Hdfs_Pyspark_Apache Spark 1.6 - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何在pyspark中更改hdfs块大小？_Hadoop_Apache Spark_Hdfs_Pyspark_Apache Spark 1.6 - Fatal编程技术网

Hadoop 如何在pyspark中更改hdfs块大小？

hadoop apache-spark pyspark

Hadoop 如何在pyspark中更改hdfs块大小？,hadoop,apache-spark,hdfs,pyspark,apache-spark-1.6,Hadoop,Apache Spark,Hdfs,Pyspark,Apache Spark 1.6,我使用pySpark编写拼花地板文件。我想更改该文件的hdfs块大小。我这样设置块大小，但不起作用： sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m") 在开始pySpark作业之前是否必须设置此选项？如果是这样，怎么做。尝试通过sc.\u jsc.hadoopConfiguration（）和SparkContext设置它 from pyspark import SparkConf, SparkContext conf =

我使用pySpark编写拼花地板文件。我想更改该文件的hdfs块大小。我这样设置块大小，但不起作用：

sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")

在开始pySpark作业之前是否必须设置此选项？如果是这样，怎么做。

尝试通过

sc.\u jsc.hadoopConfiguration（）

和SparkContext设置它

from pyspark import SparkConf, SparkContext conf = (SparkConf().setMaster("yarn")) sc = SparkContext(conf = conf) sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m") txt = sc.parallelize(("Hello", "world", "!")) txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size
在Scala中：

sc.hadoopConfiguration.set("dfs.block.size", "128m")

我也有类似的问题，但我发现了问题所在。它需要一个不是“128m”的数字。因此，这应该有效（至少对我有效！）：

它不起作用。我使用PiSpice版本1.62.HI，如果下面的任何一个解决了您的问题，请考虑最好的答案或添加自己的解决方案。因此，它向更广泛的社区表明，您已经找到了一个解决方案。我不确定您是否可以更改它，这就是文件在HDFS中的编写方式。Spark将为每个文件分区分配一个任务（类似于映射器）。这就是为什么很多人建议为Spark设置256m的区块。
block_size = str(1024 * 1024 * 128) sc._jsc.hadoopConfiguration().set("dfs.block.size", block_size)

[apache spark]相关文章推荐

Apache spark 如何指定要连接到哪个配置单元元存储？ apache-spark hive

Apache spark 如何限制火花&x27；RStudio中的执行器内核？ apache-spark

Apache spark 提高Spark中Cassandra的读取速度（并行读取实现） apache-spark cassandra pyspark

Apache spark Spark MLlib FPGrowth正在运行但不显示频繁项集 apache-spark

Apache spark Spark SQL dataframe.save with partitionBy正在创建数组列 apache-spark hive

Apache spark 在spark stream中共享变量 apache-spark

Apache spark 纱线火花HBase-因超出内存限制而被纱线杀死的ExecutorLostFailure容器 apache-spark pyspark hbase

Apache spark 基于Spark流和机器学习的在线数据实时预测 apache-spark

Apache spark Spark 2.1.0与Kafka 0.9.0的连接 apache-spark apache-kafka

Apache spark 在纱线上使用python 3.x运行spark 2.3 apache-spark pyspark

Apache spark spark 2.3.0，aws sdk java 1.7.4-s3a读取失败，AmazonS3异常错误请求？ apache-spark amazon-s3

Apache spark Spark web UI没有'；t在应用程序运行时更新（在纱线上） apache-spark

Apache spark PYSAPRK python java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStream。<；初始化>；（Ljava/io/InputStream；Z）V apache-spark pyspark

Apache spark 使用IntelliJ IDEA在本地模式下运行Spark连接蜂箱 apache-spark intellij-idea hive

Apache spark 如何使用spark submit获取spark Submition\u ID？ apache-spark

Apache spark 即使在使用collect_set进行窗口设置后，列表仍然无序 apache-spark pyspark

Apache spark 如果mapPartitions与toDF（）一起使用，为什么很少有分区被处理两次 apache-spark pyspark

Apache spark 比较两个数据帧并返回pyspark中一行的结果 apache-spark pyspark

Apache spark Spark提交具有JAR依赖项的pyspark文件 apache-spark pyspark

Apache spark 火花从kubernetes吊舱提交到运行火花的MAPR集群 apache-spark kubernetes

随机文章推荐

为单用户使用带有oauth的API oauth youtube-api twitter

钛oAuth请求 oauth titanium

Oauth 使用cfhttp发布到API oauth coldfusion

Oauth 如何从Google Drive API的刷新令牌生成访问令牌？ oauth google-drive-api

Blogger OAuth API-如何自动发布到Google+？ oauth google-plus

Oauth 服务器上的镜像API身份验证 oauth

Oauth 什么样的社交网络将允许通过自定义移动网络视图进行javascript身份验证？ oauth webview

Gadget OAUTH请求返回内部服务器错误 oauth google-calendar-api

LinkedIn OAuth2:“；无法验证访问令牌"； oauth oauth-2.0 linkedin

SalesForce canvas应用程序oauth web服务器流，用户交互最少 oauth salesforce

使用oauth 1.0a获取woocommerce rest api的无效签名错误 oauth woocommerce

OAuth授权与身份验证 oauth oauth-2.0

划线+；兴=>；无效的OAuth签名 oauth

Oauth 1.0a消费代码，等于访问令牌两次 oauth spring-security

MSIS9649:收到无效的OAuth请求。'；断言'；参数值不是有效的访问令牌 oauth openid

Oauth 可能是什么'；未验证发行人的后果'；JWT代币的价值？ oauth oauth-2.0 jwt

Oauth 如何使用jwt.io手动验证从自定义授权服务器获得的令牌？ oauth oauth-2.0 jwt openid identityserver4

Oauth 我什么时候会在OpenID Connect中使用带有response\u type=code id\u令牌的混合流？ oauth oauth-2.0

如何使用google服务帐户和oauth限制对google cloudfunction的调用？ oauth

雪花数据机器人oauth连接 oauth snowflake-cloud-data-platform

[hadoop]相关推荐

Tags

Modelica Import Sequelize.js Windows Installer Binding Firefox Addon Sas Optimization Google Colaboratory Tridion User Interface Ssh Junit Numpy Path Localization Iphone Oracle10g Express Plone Azure Functions Groovy Build Xcode4 Git Material Ui Formatting Twig Postgresql Model Blackberry Vector Process Angular Material Asynchronous Verilog Drupal 7 F# Documentation Combobox Unix Image Enums Post Scheme Multithreading Visual Studio 2015 Applescript Hybris Grails Jar Printing Cygwin Dialogflow Es Kibana Sphinx Zend Framework Common Lisp Markdown Websphere Xaml Signalr Codenameone Powershell Macos Fullcalendar Subsonic Clang Firebase Sharepoint 2013 Selenium Webdriver Image Processing Plsql Google Compute Engine Elixir Linux Kernel Https Symfony1 Apache Ibm Midrange Sql Server 2012 Xslt Keycloak Workflow Loops Vagrant Ios4 Data Binding Uitableview Tabs Filesystems Spring Encoding Language Agnostic Couchbase Xpages Error Handling View Templates Camera Coq Debugging Llvm Ip Less Laravel 4 Dependency Injection Ajax Windows Methods Streaming Actions On Google Kendo Ui Stata Dependencies Database Design D Winapi 3d Jestjs Silverlight Opengl Es Pytorch Apache Nifi Exception Android Fragments Aurelia Wolfram Mathematica Cakephp Rxjs Spring Mvc Google Apps Script For Loop Rust Events Parameters Twitter Oauth 2.0 Unity3d Scikit Learn Google Cloud Dataflow Tsql Chef Infra Caching Jasmine Talend Iframe Internationalization Angular6 Math Microsoft Graph Api Listview Prolog Sitecore Gstreamer Gwt Intellij Idea Dll Laravel Xmpp Ruby On Rails 3 Character Encoding Functional Programming Teamcity Binary Geolocation Merge Generics Install4j Migration Redux Imagemagick Azure Service Fabric Sublimetext2 Synchronization Button React Native Tags Azure Active Directory Orm Vbscript Mapbox Sql Server 2005 Svg Doctrine Oauth Jpa Openstack Firefox Stored Procedures Pascal Amazon Dynamodb Opencl Cypress Mariadb Tree Dask Zsh Jenkins Certificate Teradata

Copyright © 2024. All Rights Reserved by - Fatal编程技术网