Apache spark 火花测井；最小键=null，最大键=null；在读取ORC文件时_Apache Spark_Spark Dataframe_Orc - Fatal编程技术网

Apache spark 火花测井；最小键=null，最大键=null；在读取ORC文件时

apache-spark

Apache spark 火花测井；最小键=null，最大键=null；在读取ORC文件时,apache-spark,spark-dataframe,orc,Apache Spark,Spark Dataframe,Orc,我试图通过Spark将一个数据帧（比如100条记录）与一个ORC文件连接起来，该文件包含1亿条记录（每条记录可以增加到40-50亿字节）。它也是使用Spark hiveContext API创建的 ORC文件创建代码 //fsdtRdd is JavaRDD, fsdtSchema is StructType schema DataFrame fsdtDf = hiveContext.createDataFrame(fsdtRdd,fsdtSchema); fsdtDf.write().mode

我试图通过Spark将一个数据帧（比如100条记录）与一个ORC文件连接起来，该文件包含1亿条记录（每条记录可以增加到40-50亿字节）。它也是使用Spark hiveContext API创建的

ORC文件创建代码

//fsdtRdd is JavaRDD, fsdtSchema is StructType schema
DataFrame fsdtDf = hiveContext.createDataFrame(fsdtRdd,fsdtSchema);
fsdtDf.write().mode(SaveMode.Overwrite).orc("orcFileToRead");

HiveContext hiveContext = new HiveContext(sparkContext);
DataFrame orcFileData= hiveContext.read().orc("orcFileToRead");
// allRecords is dataframe
DataFrame processDf = allRecords.join(orcFileData,allRecords.col("id").equalTo(orcFileData.col("id").as("ID")),"left_outer_join");
processDf.show();

ORC文件读取代码

//fsdtRdd is JavaRDD, fsdtSchema is StructType schema
DataFrame fsdtDf = hiveContext.createDataFrame(fsdtRdd,fsdtSchema);
fsdtDf.write().mode(SaveMode.Overwrite).orc("orcFileToRead");

HiveContext hiveContext = new HiveContext(sparkContext);
DataFrame orcFileData= hiveContext.read().orc("orcFileToRead");
// allRecords is dataframe
DataFrame processDf = allRecords.join(orcFileData,allRecords.col("id").equalTo(orcFileData.col("id").as("ID")),"left_outer_join");
processDf.show();

读取（本地）火花日志
虽然Spark作业成功完成，但我认为它无法利用ORC索引文件功能，因此无法在继续之前检查整个ORC数据块
问题
--这是正常行为，还是我必须在以ORC格式保存数据之前设置任何配置
--如果它是正常的，那么最好的加入方式是什么，以便我们丢弃磁盘级别上的不匹配记录（可能只加载ORC数据的索引文件）

[air]相关文章推荐

Air 空气应用程序徽章安装中的强制安装位置 air

当我将HTML文件转换为AdobeAIR时，如何添加CSS和图像？ air adobe

Adobe Air文件安装失败，出现“0”；“文件损坏”； air

XMLHttpRequest在AdobeAIR预览版中工作，但不是编译的应用程序 air

Air应用程序的自动测试（HTML/JS/CSS） air automated-tests

从浏览器启动已安装的air应用程序以获取注册表文件类型 air

Air 便携式空中应用程序。可能吗？ air

Air-如何在Flash CS5.5中使用本机扩展？ air

Adobe air APNs remoteNotificationEvent不起作用 air

Air 使用ProductStore本机扩展的应用程序内 air

IBM Worklight-使用Adobe Air生成失败 air adobe ibm-mobilefirst

随机文章推荐

Sharepoint 2007 在Moss 2007中更改数据库用户密码后如何更新该密码？ sharepoint-2007

Sharepoint 2007 Sharepoint 2007调查权限 sharepoint-2007

Sharepoint 2007 如何在MOSS 2007站点中实现SP 2010可视web部件？ sharepoint-2007 sharepoint-2010

Sharepoint 2007 莫斯图书馆视图 sharepoint-2007

Sharepoint 2007 管理SharePoint文档列表 sharepoint-2007 permissions

Sharepoint 2007 OLEDB连接到MOSS 2007共享文档中的Excel文件 sharepoint-2007 c#-3.0

[apache spark]相关推荐

Apache spark Spark中点态互信息的计算
Apache Spark

Apache spark 查找与使用DICT的mapPartitions的性能比较
Apache Spark

Apache spark 无法使用Spark从scala ide连接到配置单元
Apache Spark Hive

Apache spark 如何动态更改每个Spark作业要使用的内核数？
Apache Spark Pyspark

Apache spark 火花流
Apache Spark Streaming Pyspark

Apache spark Spark提交错误：名称或服务未知
Apache Spark Pyspark

Apache spark 在范围的结束序列号之前无法读取
Apache Spark

Apache spark 加入RDD时的java.lang.StackOverflower错误-仅在集群上
Apache Spark

Apache spark 如何正确提交纱线集群模式下的spark作业
Apache Spark Pyspark

Apache spark 从spark executor查询cassandra
Apache Spark Cassandra

Apache spark 创建自动通过H2O流的作业
Apache Spark

Apache spark Spark结构化流式写入parquet创建了如此多的文件
Apache Spark

Apache spark Spark中相关矩阵的两两相关提取
Apache Spark

Apache spark 火花蓄能器混乱
Apache Spark Pyspark

Apache spark Spark Streaming：自定义接收器kryo向Google Pubsub注册
Apache Spark

Apache spark Spark流中的并发执行
Apache Spark

Apache spark 将groupByKey代码替换为reduceByKey
Apache Spark Pyspark

Apache spark 为什么完整输出模式需要聚合？
Apache Spark

Apache spark 如何将Spark日志标准重定向到控制台
Apache Spark Pyspark

Apache spark Spark—从空数据帧开始在for循环中执行数据帧的联合
Apache Spark

Apache spark 无法在纱线cliean模式下使用齐柏林飞艇运行Sparkling on Spark
Apache Spark

Apache spark Spark-处理CSV文件中的空白值
Apache Spark

Apache spark 计算spark数据帧中的新列，将df1中的令牌列表列与df2中的文本列与pyspark交叉
Apache Spark Pyspark

Apache spark 有并没有办法让spark按大小而不是按数据计数重新分区
Apache Spark

Apache spark 如何复制拼花地板文件并覆盖HDFS上的旧文件
Apache Spark

Apache spark 如何在Spark结构化流媒体中使用foreachBatch sink实现一次写入保证
Apache Spark Apache Kafka

Apache spark 是否可以在Spark中设置默认存储级别？
Apache Spark

Apache spark Prometheus中的Spark 3.0流媒体度量
Apache Spark Prometheus

Apache spark 为什么Spark在预分区数据帧上的joinWith期间执行不必要的洗牌？
Apache Spark

Apache spark 无法将数据从kafka写入hdfs
Apache Spark Pyspark Apache Kafka

Tags

Boost Ffmpeg Jboss Mono Netsuite Odoo User Interface Session Sharepoint Devexpress Qt Odata Exception Email Function Java Me Http Ip Lambda Exchange Server Influxdb Xna Emacs Build Xpages Composer Php File Ada Github Android Ndk Certificate Inheritance Haskell Rdf Gruntjs Calendar Network Programming Typescript Ckeditor Google Plus Swift3 Postman Types Dependencies Xmpp Events Azure Data Factory Ag Grid Arduino Canvas Gulp Aem Sql Qt4 Pointers Exception Handling Embedded Curl Svn Tcl Ios4 Tridion Algorithm Vuejs2 Biztalk Clojure Winforms Hybris Grails Joomla Inno Setup .net 4.0 Ruby On Rails Oracle10g Visual Studio 2013 Mongodb Clang Visual C++ Sas Jestjs Checkbox Sql Server 2008 Discord.js Domain Driven Design Magento Nsis Tabs Drupal 6 Jsp Debugging Swing Responsive Design Directory Botframework Amazon S3 Iphone Web Services Syntax Apache Pig Microservices Vmware Data Structures Next.js Button Webstorm Julia Resharper Visual Studio 2015 EmptyTag Web Crawler Blackberry Mongoose Lua Acumatica Jenkins Codenameone Liferay Module Mod Rewrite Google Colaboratory Fiware Asp.net Mvc 2 Google App Maker Pytorch Assembly Sharepoint 2010 Sed Actionscript 3 Hadoop Dotnetnuke Swiftui Meteor Kdb Erlang Python Sphinx Jqgrid 3d Yii File Io Octave Project Management Triggers Automated Tests Discord Vagrant Ssl Optimization Enums Playframework 2.0 Marklogic Socket.io Asp.net Web Api Tomcat Loopbackjs Jvm Dictionary Xsd Ssis Charts Android Emulator Lotus Notes Routes Sbt Material Ui Stored Procedures Windows 10 Service Language Agnostic Arrays Sqlalchemy Ssh Axapta C Azure Active Directory Dynamics Crm 2011 Visual Studio Compilation Spring Dependency Injection C++ Cli Adobe C# Interface Scheme Binding Windbg Polymer Memory Leaks Coding Style Teamcity Smtp Image Processing Titanium Subsonic Oauth Virtualbox Configuration Jersey Markdown Random Seo

Copyright © 2024. All Rights Reserved by - Fatal编程技术网