Scala Spark-如何处理更新_Scala_Apache Spark_Aggregate Functions - Fatal编程技术网

Scala Spark-如何处理更新

scala apache-spark

Scala Spark-如何处理更新,scala,apache-spark,aggregate-functions,Scala,Apache Spark,Aggregate Functions,我在更新数据池中的行时遇到了一个问题。假设我们有来自某个地方的记录。这些记录需要写在HDFS/AzureBlobStorage/where上。假设我们的记录有一个唯一的ID。假设我们已经写了一些没有任何重复ID的记录。因此，我们： ID | name 1 | Andrew 2 | Bob 3 | Alice （这是一个例子，所以我只使用了一个字段来更新）我们将这些记录保存在HDFS/AzureBlobStorage/wher

我在更新数据池中的行时遇到了一个问题。假设我们有来自某个地方的记录。这些记录需要写在HDFS/AzureBlobStorage/where上。假设我们的记录有一个唯一的ID。假设我们已经写了一些没有任何重复ID的记录。因此，我们：

ID      |    name
1       |   Andrew
2       |   Bob
3       |   Alice

（这是一个例子，所以我只使用了一个字段来更新）我们将这些记录保存在HDFS/AzureBlobStorage/where上。现在，一个新的记录出现了：

ID=1  name=Mark

我们要做的是更新此记录。有可能是这样吗？我想到的一个解决方案是用一个时间戳保存所有记录，并在一个窗口上使用聚合，按时间戳排序（降序），保持第一行

您是否有任何解决方案可以让我在任何时间只更新最新的行？我认为这是不可能的，但我不确定。
通常Apache Spark不支持直接更新RDD/dataframes和底层数据源，但是有第三个框架允许这样做。其中之一是

如果您想从spark实现这一点，那么一种方法是存储所有更改数据的事件，并将当前状态回复为处理所有事件日志。
我将尝试使用Delta。我不知道。非常感谢。寻找scd type1实现。这将覆盖现有记录。

[apache spark]相关文章推荐

Apache spark Apache齐柏林飞艇不加载libmesos.so apache-spark

Apache spark 定制PyBrain代码以作为Spark作业运行 apache-spark

Apache spark 如何使用PySpark、SparkSQL和Cassandra？ apache-spark cassandra pyspark

Apache spark 使用Foreach收集数据 apache-spark java-8

Apache spark pyspark graph用于查找大型图形的连接组件 apache-spark pyspark

Apache spark pyspark流：无法对工作进程执行rdd.count（） apache-spark pyspark

Apache spark 无法在ES 6.x及更高版本中的索引/更新请求上使用时间戳。请删除[es.mapping.timestamp]设置 apache-spark

Apache spark 如何在scala中使用spark cassandra连接器API apache-spark cassandra

Apache spark 创建一个热编码器。CountVectorizer返回ArrayType错误（IntergerType，true） apache-spark pyspark

Apache spark 在EMR的核心节点上为Spark应用程序主机保留空间 apache-spark hadoop pyspark

Apache spark pyspark基于groupby列获取流数据的不同值 apache-spark hadoop pyspark

Apache spark 使用PySpark屏蔽信用卡号 apache-spark hadoop pyspark

Apache spark 使用Spark的大文件中的字数 apache-spark pyspark

Apache spark Spark数据帧中从数组中提取单个元素 apache-spark

Apache spark HDP 3.1上的spark 3.x处于无头模式，配置单元-未找到配置单元表 apache-spark hive

Apache spark 我的可变映射在spark scala中的Foreach中没有得到迭代 apache-spark

Apache spark 如何根据Pyspark中的值查找前n个键？ apache-spark pyspark

Apache spark 将文件导入为RDD与DF之间的区别 apache-spark

Apache spark 火花Kryo系列化 apache-spark

Apache spark 无法解析'；columnname'；给定输入列：sparksql apache-spark

随机文章推荐

具有正常数的Big-O big-o

Big o 非就地二进制搜索的时间复杂度 big-o time-complexity

Big o 如何使用主定理计算大O big-o

[scala]相关推荐

如何在scala中模拟静态函数（对象函数，而不是类函数）
Scala Object

“；scala.sys.process”；从Scala 2.9工作？
Scala

Scala Predef不重要
Scala Import

Scala：向参与者发送/处理键入的消息
Scala

Scala中逐行并发读取和处理文件
Scala Collections Concurrency Parallel Processing

为什么Scala Iteratees中需要空输入用例？
Scala

如何在Scala列表中找到重复项？
Scala

Scala 用于Play框架的非阻塞DB驱动程序
Scala Playframework 2.0

Scala Json4s支持带有trait mixin的case类
Scala

从scala中的列表[对象，异常]]中筛选出重复项
Scala

Scalaz中的状态和自由单子示例
Scala

使用scalaz流计算摘要
Scala

从地图中处理选项。在Scala中获取
Scala

Scala 阿克卡中Actorref.tell和inbox.send的区别
Scala Akka

突然，我的Scala代码期望`；`在每条语句的末尾
Scala Sbt

Scala akka：组合来自多个子系统的消息的模式
Scala Concurrency Mapreduce Akka

Scala Slick 3.0将代表（绑定）转换为值
Scala Join

在Scala中模拟JDBC连接
Scala Unit Testing Jdbc

Scala 值映射不是org.apache.spark.sql.Row的成员
Scala Twitter Apache Spark

Scala Akka-处理阻塞操作
Scala Asynchronous Akka

Scala 如何捕获参与者内部抛出的异常？
Scala Akka

Scala 如何克服java.lang.ArrayIndexOutOfBoundsException错误
Scala Apache Spark

Scala:JavaFx Tableview不显示数据
Scala Javafx

在Scala/akka中记录到文件：ClassNotFoundException:akka.event.slf4j.Slf4jLoggingFilter
Scala Logging Akka

无法在spark Scala中导入org.apache.spark.streaming.twitter
Scala Twitter Apache Spark Streaming

在Scala中将循环重写为声明式样式的命令
Scala Loops Functional Programming

为什么scala中不推荐使用while循环
Scala Functional Programming

Scala groupByKey在Spark数据集中，沿聚合执行自定义逻辑
Scala Apache Spark

Scala解释器块
Scala

Scala集合vs映射用于理解
Scala

Tags

Amazon Dynamodb Amazon Web Services Tsql Xaml Apache Pig Drupal Apache Nifi Numpy Web Crawler Corda Python 2.7 Google App Engine Prestashop Ldap Windows Phone 8 Woocommerce Javafx 2 Keras Safari Msbuild C# 4.0 Instagram Hibernate Go Hbase Sugarcrm Binding Visual C++ Responsive Design Sprite Kit Coding Style Servlets Gridview Dynamics Crm Spotify Pentaho Ethereum Architecture Performance Transactions Nativescript Types Svg Jmeter Vmware Cocos2d Iphone Vector Opengl Selenium X86 Map Datetime Aws Lambda Rspec Isabelle Unix Kernel Silverstripe Sql Snowflake Cloud Data Platform Asp.net Mvc 3 Xslt Appium Ffmpeg Layout Titanium Markdown Matrix Encoding Netbeans Tabs Hazelcast Powershell Glassfish Browser Flash Sdk Jaxb Netty Jhipster Apache Storm Cloud Foundry Filesystems Asp.net Postman Time Smtp Websphere Camera Clang Git Sqlalchemy Llvm Dart Windows Phone 7 Model Indexing Influxdb Netlogo Python 3.x Fortran Javafx Hyperlink Cucumber Highcharts Meteor Dialogflow Es Talend Geometry Gwt File Io Arm Checkbox Sphinx Content Management System Ios5 Build Apache Camel Ios4 Log4net Datatables Twitter Bootstrap 3 Monitoring Algorithm Ipad Process Ravendb Ibm Midrange Apache Spark Applescript Batch File Networking Apache Flink Swift2 Hyperledger Fabric If Statement Properties Cocoa Touch Mvvm Tensorflow Timer Elm Julia Gremlin Localization Windows 8 Compiler Errors Mod Rewrite Download Django Rest Framework Ubuntu Open Source Nunit Google Maps Api 3 Fonts Nest Vuejs2 Jira Opencv Dynamics Crm 2011 Optimization Formatting Kdb Css Interface Drools Activemq Button Ios8 Zsh Grails Visual Studio 2013 Polymer Postgresql Cors Menu Select Extjs4 Vue.js Assembly Robotframework Twilio Qml Yaml Rust Entity Framework 4 Csv Url Rewriting Django Typo3 Computer Vision Liferay Image Xampp Serial Port Protractor Odoo Salesforce Openlayers Filter Tkinter

Copyright © 2024. All Rights Reserved by - Fatal编程技术网