Scala 是否可以根据用于划分数据集的列的值动态命名零件XXXX文件？_Scala_Apache Spark_Hadoop - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 是否可以根据用于划分数据集的列的值动态命名零件XXXX文件？_Scala_Apache Spark_Hadoop - Fatal编程技术网

Scala 是否可以根据用于划分数据集的列的值动态命名零件XXXX文件？

scala apache-spark hadoop

Scala 是否可以根据用于划分数据集的列的值动态命名零件XXXX文件？,scala,apache-spark,hadoop,Scala,Apache Spark,Hadoop,我有一个val dataset=dataset[FeedData]，其中FeedData类似于案例类FeedData（feed:String，data:XYZ）我想避免对文件进行后处理，因此我决定调用dataset.repartition（$“feed”）.json（“s3a://…”），以便每个feed都位于不同的文件中。问题是这些文件仍然按照XXXX部分的内容命名，因此我无法轻松地为给定提要选择相关文件，除非a）打开它们以检查feed内部的值，或者b）对文件进行后期处理以使其更友好我希望

我有一个

val dataset=dataset[FeedData]

，其中

FeedData

类似于

案例类FeedData（feed:String，data:XYZ）

我想避免对文件进行后处理，因此我决定调用

dataset.repartition（$“feed”）.json（“s3a://…”）

，以便每个

feed

都位于不同的文件中。问题是这些文件仍然按照XXXX部分的内容命名，因此我无法轻松地为给定提要选择相关文件，除非a）打开它们以检查

feed

内部的值，或者b）对文件进行后期处理以使其更友好

我希望文件看起来像
部分XXXX-{feed}
而不是
部分XXXX

是否可以根据用于对数据集进行分区的列

feed

的值动态命名分区文件

背景：

我找到的答案提到了一个

saveAsNewAPIHadoopFile（）

方法，在这个方法中，我可以为自己的文件命名实现扩展一些相关的类

有谁能帮助我理解这个方法，如何从

数据集访问它，并告诉我是否可以将所需的信息（feed
）投射到我的实现中，以动态命名分区？
我试图以错误的方式进行操作：
dataset.repartition（$“colName”）.write.format（“json”）.save（path）

正确的方法是：
dataset.write.partitionBy（“colName”）.format（“json”）.save（path）


区别在于您应该在.write
之后调用.partitionBy
。生成的目录如下所示：colName=value/part XXXX

有关更多信息，请参阅。
它们实际上有完全不同的用途，请参阅

[apache spark]相关文章推荐

随机文章推荐

Hibernate 无法将标识列键生成与<；联合子类>；（每类表） hibernate inheritance jpa

Hibernate查询未返回完整对象 hibernate

如何向Spring Hibernate项目添加装置 hibernate spring

Hibernate struts2创建标准 hibernate

Hibernate 使用没有键列的表休眠集合 hibernate

查找Hibernate实体的主键字段 hibernate

Hibernate DTO和值对象映射 hibernate

Hibernate 同一表上多个select的休眠条件 hibernate

Hibernate 加入前订购第二张表 hibernate join

Hibernate spring mvc验证程序@valid'；我不为收藏工作 hibernate validation spring-mvc collections

Hibernate com.mchange.v2.c3p0.sqla-base-de-datos-tiene-transacciones hibernate

Hibernate HQL子查询未看到该表 hibernate

Hibernate com.mchange.v2.c3p0.management.ActiveManagementCoordinator.attemptmanagec3p0注册表已注册c3p0注册表mbean hibernate

Hibernate CRUDEPositories-@Query执行前的流程查询参数 hibernate jpa spring-boot

Roo 2.0如何在没有persistence.xml的情况下将Hibernate从创建更改为更新 hibernate

Hibernate Spring JPA更新不适用于嵌套对象 hibernate spring-boot jpa

Hibernate HQL给出了；unnast节点（"；within case子句 hibernate

Hibernate 如何使用ManyToOne关系从mysql数据库中获取数据，而不使用主键实体 hibernate spring-boot jpa

Hibernate DuplicateMappingException:表包含多个物理列名引用的物理列名 hibernate jpa

Hibernate 冬眠不'；找不到带注释的类 hibernate

[scala]相关推荐

Scala工厂模式
Scala

Scala 使用初始值设定项块进行对象初始化
Scala

Scala编译器插件的动态加载
Scala

Scala Spark中的takeSample（）函数
Scala Random

Scala 家族多态性&x2B；混血儿？
Scala

如何使用scala在树中查找元素
Scala

Scala 从任意到任意参考的通用/通用装箱
Scala

Scala 我应该在什么时候使用；新"；在斯卡拉？
Scala Dictionary Collections

Scala状态单子-组合不同的状态类型
Scala Functional Programming

Scala 将解析器组合器应用于case类
Scala

Scala 当宏注释不能在定义宏注释的同一编译中使用时，它意味着什么？
Scala

Scala 如何模拟儿童演员来测试Akka系统？
Scala Unit Testing Akka

在Scala中使用通用更新函数实现产品类型
Scala

Scala Spark:MEMORY_ONLY_seru_2-奇怪的记忆行为
Scala Memory Apache Spark

如何在游戏中使用Guice注入的组件测试参与者！scala 2.5
Scala Akka

如何从无类型RESTAPI重用基于Scala类型类的API
Scala Types

Scala 如何使用sparksql进行递归查询
Scala Apache Spark

Scala 即使在压缩之后，RDD大小仍然保持不变
Scala Apache Spark

Scala 在Spark中运行第一个程序
Scala Apache Spark

如何在play framework（scala）中发送HTTP 2.0请求
Scala Playframework

Scala 在Play 2.6中，如何编写一个WS-Client筛选器来转发来自父请求的头？
Scala Playframework

Scala中：：和Nil类型之间的差异
Scala List

Scala 如何在Databricks集群上执行Intellij Spark代码
Scala Apache Spark Intellij Idea Sbt

Scala 作为模块参数的束向量
Scala

Spark scala:java.lang.ClassCastException:java.lang.Integer不能强制转换为scala.collection.Seq
Scala Apache Spark

Scala 使用H2数据库进行测试时未找到表
Scala

Scala 如何使用listOfData和schema创建spark数据帧
Scala Dataframe Apache Spark

Scala java.io.EOFException不是空文件上的SequenceFile
Scala Apache Spark Hadoop

Scala 具有多态函数的泛型元组映射
Scala

Scala 将函数作为参数传递，为什么=>；我的场景中是否需要符号？
Scala

Tags

Modelica Socket.io Asp.net Core Nest Java Ssrs 2008 Ecmascript 6 Fluent Nhibernate Requirejs Cocoa Touch Bluetooth Xamarin.forms Perl Sbt Nuget Session Apache Pig Cocoa Reporting Services Material Ui Stored Procedures Nservicebus Usb Database Design Here Api Applescript Fiware Jquery Plugins Gdb Angularjs Webpack Eclipse Web Xpath Multithreading Network Programming Jaxb Aframe Responsive Design Rxjs Compilation Vb6 Android Fragments Gruntjs Windows Phone React Native Antlr Visual Studio Sip Embedded Scrapy EmptyTag Jqgrid Umbraco Formatting Akka .net Core Dependencies Ansible Data Structures Project Management Sorting Jsf 2 Linux Cakephp Mediawiki Frameworks Transactions Tree Dns Dynamic Sharepoint 2007 Aem Logging Rss Odoo Youtube Api Protocol Buffers Authentication Telegram Dask Vba Amazon Dynamodb Extjs4 Chart.js Nlp Google Chrome Extension Qml Neural Network Ipython Openlayers Data Binding Glsl Testing Pandas Coq Graph Dotnetnuke Drupal 6 Vector Graphics Asp.net Mvc 4 Jenkins Oracle Apex Ionic2 Model View Controller Vb.net Regex Vuejs2 Octave Log4j Uwp Reference Woocommerce Xamarin Certificate Algorithm Jquery Ui Google Apps Script Racket Apache Flex Video Streaming Jdbc Mongodb Spring Breeze Microsoft Graph Api Azure Service Fabric Command Line Autocomplete Paypal Jpa Pagination Github Documentation Doctrine Orm Xml Push Notification Entity Framework Core Discord Drop Down Menu Windows Phone 8 Ibm Mobilefirst Ssh Mobile Bash Synchronization Wcf Snowflake Cloud Data Platform Clojure Sphinx Ios7 Yii Msbuild Scheme Pip Ionic Framework Bazel Angular Google App Maker Filter Sublimetext2 Angular6 Asp.net Mvc 2 Django Json Facebook Twig Windows Store Apps Openid Extjs Safari Twitter Bootstrap Search Itext Razor Cors Html5 Canvas Clearcase View Mule Image Processing Url Rewriting Sublimetext3 Http Docker Compose Linker Vim Workflow Silverlight Dojo Tsql Smalltalk Keras Cmd Keyboard Validation Build Tomcat Visual Studio 2013 Loopbackjs

Copyright © 2024. All Rights Reserved by - Fatal编程技术网