Apache spark 在执行操作之前，sparkContext.wholeTextFiles（位置）不会为缺少的路径引发异常_Apache Spark_Pyspark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Apache spark 在执行操作之前，sparkContext.wholeTextFiles（位置）不会为缺少的路径引发异常

apache-spark pyspark

Apache spark 在执行操作之前，sparkContext.wholeTextFiles（位置）不会为缺少的路径引发异常,apache-spark,pyspark,apache-spark-sql,spark-streaming,Apache Spark,Pyspark,Apache Spark Sql,Spark Streaming,我正在通过spark读取S3中以小时格式显示的数据。例如 sparkContext.wholeTextFiles（“s3://'Bucket'/'key'/'yyyy'/'MM'/'dd'/'hh'/*”）上面的方法返回一个（key，value）对，即（Filename，Content）问题 sparkContext.wholeTextFiles（“location”）。值返回一个RDD，如果S3中的“location”在对该RDD执行操作之前不存在，则该RDD不会引发异常检查给定位置是否

我正在通过spark读取S3中以小时格式显示的数据。例如

sparkContext.wholeTextFiles（“s3://'Bucket'/'key'/'yyyy'/'MM'/'dd'/'hh'/*”）

上面的方法返回一个（key，value）对，即（Filename，Content）

问题

sparkContext.wholeTextFiles（“location”）。值返回一个RDD，如果S3中的“location”在对该RDD执行操作之前不存在，则该RDD不会引发异常

检查给定位置是否存在的当前代码

 val data = sparkSession.sparkContext
  .wholeTextFiles(location)
  .values
Try {
  data.isEmpty()
}
 case Success(_)=>{}
 case Failure(_)=>{}

即使位置不存在，数据的返回值：MapPartitionsRDD[2]
对数据执行isEmpty（）操作后返回值
org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在：
问题
我正在使用一种黑客方法对数据RDD执行操作isEmpty（）（我也可以使用任何其他操作），以在位置不存在的情况下给出失败，否则如果未完成此检查，则会失败，并在稍后由于延迟评估而使用此数据时引发上述相同的异常
我想问，这是否是检查位置是否存在以读取数据的正确方法，因为需要对RDD执行操作？

[pyspark]相关文章推荐

如何通过pyspark将csv文件写入一个文件 pyspark

pyspark udf的变量数 pyspark

在子字符串匹配（或包含）上加入PySpark数据帧 pyspark

Pyspark 在EMR中使用RunJobFlow时，如何提供S3路径作为HadoopJarStep的输入？ pyspark

创建包含ArrayType的Pyspark架构 pyspark

在pyspark/jupyter env中用MOJO得分 pyspark jupyter-notebook

Pyspark 如何将RDD.groupBy（）的结果从（key，[values]）展平到（key，values）？ pyspark

Pyspark 如何在spark中使用多个分隔符保存文件 pyspark

agg条件：关键字can'；不要用Pyspark来表达 pyspark

pyspark数据帧的区分大小写的列删除操作？ pyspark

Pyspark 如何基于日期从一行数据框创建包含两行的数据框 pyspark

Pyspark 从文件中的列中获取不同的值以创建RDD pyspark

Pyspark 向位于data lake中的空数据帧添加新行 pyspark

Pyspark 无法在spark结构化流媒体中写入聚合输出 pyspark

如果不设置组id，pyspark kafka如何知道从何处开始使用数据？ pyspark apache-kafka

创建另一列以检查pyspark中的不同值 pyspark

Pyspark 当一列中的值位于另一列中时标记数据 pyspark

PySpark 1.6中是否有更有效的方法实现余弦相似性？ pyspark

在EMR Jupyterhub笔记本上的Pyspark内核中无法进行绘图可视化 pyspark jupyter-notebook

PySpark或方法异常 pyspark

随机文章推荐

Ruby on rails 3 Rails 3，子列表中的根名称（产品列表中的制造商名称） ruby-on-rails-3

Ruby on rails 3 如何开发允许用户向文本文件添加标记的webapp？ ruby-on-rails-3 web-applications grails text

Ruby on rails 3 Rails-从3.0迁移到3.1 ruby-on-rails-3 ruby-on-rails-3.1

Ruby on rails 3 Php到Rails-Rails关联-联系\u到\u组表 ruby-on-rails-3

Ruby on rails 3 在Rails find/where中传递多态查找参数的对象 ruby-on-rails-3

Ruby on rails 3 纸面追踪给了我现有用户模型的错误 ruby-on-rails-3

Ruby on rails 3 指定“路径”时没有路由匹配 ruby-on-rails-3

Ruby on rails 3 生产中的Rails 3.2未显示任何资产 ruby-on-rails-3 deployment

Ruby on rails 3 rails当前页面有问题吗？ ruby-on-rails-3

Ruby on rails 3 异常通知程序-如何显示自己的错误页面？ ruby-on-rails-3 exception error-handling

Ruby on rails 3 在ActiveAdmin中创建动态表单 ruby-on-rails-3

Ruby on rails 3 Rails在AJAX请求期间阻止布局 ruby-on-rails-3

Ruby on rails 3 Postgres错误“；参数“的值无效”；时区“&引用；UTC"&引用； ruby-on-rails-3 postgresql

Ruby on rails 3 Rails 3：链接到新窗口中的图像 ruby-on-rails-3

Ruby on rails 3 GoogleVisualr gem，未定义的方法 ruby-on-rails-3 google-visualization

Ruby on rails 3 如何在守护程序模式下运行rake resque:scheduler ruby-on-rails-3

Ruby on rails 3 哪些用户已登录rails3 ruby-on-rails-3 ruby-on-rails-3.2

Ruby on rails 3 注销前调用两次Rails管理员 ruby-on-rails-3

Ruby on rails 3 如何使用carrierwave将ffmpeg处理后的文件保存到s3 ruby-on-rails-3 amazon-s3 ffmpeg

Ruby on rails 3 Rails-属于的 ruby-on-rails-3 activerecord

[apache spark]相关推荐

Apache spark 如何为Spark RDD中的元素分配唯一的连续编号
Apache Spark

Apache spark 提交&；从另一个应用程序以编程方式终止Spark应用程序
Apache Spark

Apache spark 为什么actorSystem会在spark中被弃用
Apache Spark

Apache spark Spark-如何处理名称中有空格的列
Apache Spark

Apache spark 为什么Spark History Server不以本地群集模式显示已完成的应用程序？
Apache Spark

Apache spark SparkStreaming在出现错误时关闭作业
Apache Spark

Apache spark Google Cloud Dataproc迁移到Spark 1.6.0
Apache Spark

Apache spark 用graphx/spark进行图划分
Apache Spark

Apache spark Spark SQL（通过HiveContext进行配置单元查询）始终创建31个分区
Apache Spark

Apache spark UpdateStateByKey中的Spark Streaming变量在从检查点重新启动应用程序后未更改值
Apache Spark Pyspark

Apache spark 在pyspark EMR 5.x中运行用Java编写的hive UDF时出错
Apache Spark Pyspark

Apache spark Spark.read.csv错误：java.io.IOException:权限被拒绝
Apache Spark

Apache spark 如何在pyspark中添加字符串常量的新列
Apache Spark Pyspark

Apache spark Spark中的xml解析是否需要任何外部jar？
Apache Spark

Apache spark 无法从Spark streaming中的单个文件读取流数据
Apache Spark

Apache spark 为什么spark shell会因“；错误：未找到：值spark”；？
Apache Spark

Apache spark Spark结构化流计算聚合查询花费太多时间
Apache Spark Apache Kafka

Apache spark 缓存不阻止多个文件扫描？
Apache Spark Dataframe Caching

Apache spark spark sql:会话启动错误NoClassDefFoundError:org/apache/tez/dag/api/SessionNotRunning
Apache Spark Hive

Apache spark Jupyter笔记本-AccessControlException:权限被拒绝：user=livy
Apache Spark Jupyter Notebook

Apache spark 如何在spark结构化流媒体中使用连接池覆盖ForeachWriter
Apache Spark

Apache spark 插入时增量表中的自动增量id
Apache Spark Pyspark

Apache spark 通过udf将数据帧激发到numpy阵列，或不收集到驱动程序
Apache Spark Pyspark

Apache spark 为什么我在Spark中得到类型不匹配？
Apache Spark

Apache spark 如何在一行中左键联接两个结构数组？
Apache Spark Pyspark

Apache spark 如何使用Spark SQL解决横向连接的问题？
Apache Spark

Apache spark 如何在Spark中向现有分区添加行？
Apache Spark Amazon S3 Pyspark

Apache spark 火花RDD存储器
Apache Spark Memory

Apache spark 显示<；IPython.core.display.HTML对象>；火花
Apache Spark Pyspark Ipython

Apache spark 如何为我的csv数据自动设置架构？
Apache Spark

Tags

Design Patterns Ssl Blackberry Axapta Jekyll Programming Languages Mercurial Tensorflow Batch File Google Analytics Visual Studio 2012 Datatables Vuejs2 Image Asp.net Core Mvc Discord.py Geometry Objective C Scroll Powerbi Plone Cordova Elm Sas Actions On Google Doctrine Doctrine Orm Ios5 Python Qt4 Shopify Plot Rdf Wordpress Deployment Calendar Coding Style Wix Keras Makefile Postgresql Jasmine Boost Server Asp.net Sql Server 2008 Uwp Tfs Angular6 Layout .htaccess Charts Web Javascript Listview Graphics Api Prestashop Sharepoint Pine Script Ionic Framework Mongodb Artifactory Documentation Dependencies Flash Gmail Google Sheets Dynamic Sdk Oop Codeigniter Qml C++11 Visual Studio Common Lisp C# 4.0 Actionscript Windows Phone 8.1 Sequelize.js Aws Lambda Electron Oracle Select Asp.net Core Ionic2 Xquery Google App Engine Javafx 2 Parameters Ios8 Redirect Tcp Weblogic Xcode Angular Material Entity Framework Opengl Es Opencv Dll Drools Stata Arangodb Excel Visual Studio 2013 Xpages Selenium Dart Maven 2 Awk C++ Drupal Arrays Yaml E Commerce Sugarcrm Windows Services Graphql Testing Regex Curl Compiler Errors Artificial Intelligence Monitoring Linq Heroku Terminal Exception Configuration Windows Phone 7 Jetty Razor Embedded Jpa Itext C Migration Animation Cron Kendo Ui Fiware Puppet Video Streaming Web Services Button Ibm Midrange Clojure User Interface Amazon Cloudformation Robotframework Servlets Google Drive Api Nativescript Ruby On Rails Bazel Orchardcms Amazon Ec2 Reactjs Discord.js Office Js Websphere Primefaces Lucene Ibm Mobilefirst Mapping Installation Gulp Mips Logic Sqlite Amazon Web Services Cucumber .net Core Memory Leaks Talend Composer Php Csv Ruby On Rails 3.1 Kdb Rest Cocos2d Iphone Geolocation Grails Breeze Azure Functions Google App Maker Magento Nestjs C# Jasper Reports Sql Server 2008 R2 Blazor Character Encoding Ipad Google Bigquery Events Database Import Security Extjs X86

Copyright © 2024. All Rights Reserved by - Fatal编程技术网