Apache spark 将6000亿条记录从一个配置单元表加载到另一个配置单元表_Apache Spark_Hadoop_Hive - Fatal编程技术网

Apache spark 将6000亿条记录从一个配置单元表加载到另一个配置单元表

apache-spark hadoop hive

Apache spark 将6000亿条记录从一个配置单元表加载到另一个配置单元表,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,我在1个数据库中有一个配置单元外部表，包含大约6000亿条记录和100列。我需要将数据复制到其他数据库中的同一个表中。我正试图写一个spark代码，但这需要很长时间。有没有建议我如何编写代码？我是新手不要复制，让它放在原处。在另一个数据库中创建位置指向数据位置的外部表 USE YOUR_DATABASE; CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data'; 必要时使用MSCK修复表abc恢复分区或更改表abc恢复分区如果您在E

我在1个数据库中有一个配置单元外部表，包含大约6000亿条记录和100列。我需要将数据复制到其他数据库中的同一个表中。我正试图写一个spark代码，但这需要很长时间。有没有建议我如何编写代码？我是新手

不要复制，让它放在原处。在另一个数据库中创建位置指向数据位置的外部表

USE YOUR_DATABASE;
CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data';

必要时使用MSCK修复表abc恢复分区或

更改表abc恢复分区如果您在EMR上
如果您确实需要将数据复制到另一个位置（如果您在Amazon付费EC2集群上，您需要在这方面花钱的理由），请使用：
hadoop distcp hdfs://your/data hdfs://your/data2




[hadoop]相关文章推荐



                                                        
用hadoop实现mapreduce矩阵乘法
hadoopmapreduce 
Hadoop 在AWS Elastic Map Reduce中禁用Gzip输入解压缩
hadoopamazon-web-servicesmapreducecompression 
Hadoop Amazon Elastic Map Reduce-创建工作流程
hadoopamazon-s3amazon-ec2 
Hadoop 使用大型动态分组/路径存储数据
hadoopapache-pig 
Hadoop 配置单元在子查询中选择DISTINCT和GROUP BY
hadoop 
Hadoop Pig/级联的单序列化类型（SST）与Apache Crunch的多序列化类型（MST）相比
hadoop 
Hadoop mapreduce何时不适合业务？
hadoopmapreduce 
Hadoop 当嵌套在子查询中时，配置单元UDF提供重复的结果，而不考虑参数
hadoophive 
Hadoop 清管器脚本错误
hadoopcompiler-errorsapache-pig 
Hadoop 如何使用MapReduce framework处理打开的文件
hadoopmapreduce 
必须设置$HADOOP\u HOME或$HADOOP\u前缀，或者HADOOP必须位于路径中
hadoophive 
Hadoop MapReduce作业挂起，等待分配AM容器
hadoopmapreduce 
Hadoop 通过Jenkins部署Oozie作业
hadoopjenkins 
Hadoop -hivevar和-hiveconf之间有什么区别？
hadoophive 
Hadoop 或文件（9）
2017-02-17 07:43:06846信息[main]：ppd.OpProcFactory（OpProcFactory.java:logExpr（707））-别名为：consumes的FIL的下推谓词
2017-02-17 07:43:
hadoophive 
安装hadoop时找不到jps命令
hadoopcentos 
在Hadoop中，复制因子和集群中的节点数之间的关系是什么？
hadoop 
Hadoop:无法连接到Web GUI
hadoopinstallation 
Hadoop 如何配置HDFS以侦听0.0.0.0
hadoop 
安装hadoop-3.1.4'时出错；hdfs'；未被识别
hadoop 
                                       





随机文章推荐



                                                        
Dependency injection Structuremap 2.0文档
dependency-injection 
Dependency injection 如果每个应用程序都有许多Castle Windsor容器，并且这些容器属于不同的层，那么这些容器是否正确？
dependency-injection 
Dependency injection LightSpeed与使用存储库模式的IoC/依赖项注入
dependency-injection 
Dependency injection 为依赖项注入/控制反转序列化配置
dependency-injection 
Dependency injection Ninject+&引用；加载Ninject组件ICache时出错“；
dependency-injection 
Dependency injection 向一个类添加更多依赖项听起来好像工作量太大了
dependency-injection 
Dependency injection 在温莎城堡进行CreationContext.AdditionalArguments
dependency-injection 
Dependency injection 如何让self-host与IoC合作进行Web Api集成测试？
dependency-injectionasp.net-web-api 
Dependency injection 使用依赖注入进行单元测试的下一步是什么？
dependency-injectionasp.net-web-api 
Dependency injection Symfony 2控制器依赖项，扩展ContainerWare
编辑
dependency-injection 
Dependency injection 为什么可以'；托管Bean构造函数中的ti Init属性？
dependency-injection 
Dependency injection 如何允许解决方案使用非'；你不使用DI吗？
dependency-injection 
Dependency injection 在控制反转中，回调和依赖注入之间有什么区别？
dependency-injection 
Dependency injection 使用存储库的依赖项注入
dependency-injection 
Dependency injection 如何在ES6中使用angular2 DynamicComponentLoader？
dependency-injectionangular 
Dependency injection asp.net核心内置依赖项注入长代码
dependency-injectionasp.net-core 
Dependency injection 使用依赖项注入实例化类
dependency-injectionasp.net-core-mvc 
Dependency injection 如何使用Ninject在Web应用程序中使用线程作用域执行并行操作
dependency-injection 
Dependency injection 依赖注入-尝试避免使用服务定位器
dependency-injection 
Dependency injection Codeception：将Symfony类注入到功能测试中无法解决依赖关系
dependency-injection


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 如何使Spark Streaming（Spark 1.0.0）从Kafka（Kafka Broker 0.8.1）读取最新数据
									Apache Spark
							 									Apache Kafka
							 
Apache spark 通过数学运算组合spark数据帧中的行/列
									Apache Spark
							 									Pyspark
							 
Apache spark Spark MLlib-使用隐式反馈训练协同过滤-奇怪警告
									Apache Spark
							 
Apache spark 工作程序获取时引发异常"；无法反序列化任务异常"；ClassNotFoundException错误
									Apache Spark
							 
Apache spark 为什么Spark Streaming中的多个print（）方法会影响列表中的值？
									Apache Spark
							 
Apache spark Spark CSV IOException Mkdirs无法创建文件
									Apache Spark
							 
Apache spark 获取Spark DataFrame SQL中没有路径的文件名
									Apache Spark
							 
Apache spark spark何时以及如何在执行器上分配分区
									Apache Spark
							 
Apache spark spark.executor.extraLibraryPath正在重写路径，而不是追加
我正在为Spice的执行器设置一个额外的库路径（为了基于C++库运行一个UDF）。
当通过spark.executor.extraLibraryPath提供额外的库时，我看到库路径被覆盖而不是追加
									Apache Spark
							 
Apache spark 从Dataproc群集上的Spark UI获取文件时的http代码302
									Apache Spark
							 
Apache spark 运行livy的Spark时出错
									Apache Spark
							 
Apache spark pyspark submit中的Java堆空间OutOfMemoryError？
									Apache Spark
							 									Pyspark
							 
Apache spark spark独立模式通过spark.driver.extraJavaOptions
									Apache Spark
							 
Apache spark 使用Spark v 1.6的SQLContext访问配置单元表时出现“找不到表”错误
									Apache Spark
							 
Apache spark 设置Spark时如何解决以下错误
									Apache Spark
							 
Apache spark spark jms接收器加载仅使一个消费者忙
									Apache Spark
							 									Jms
							 
Apache spark 如何使用Spark RDD进行批量提交？
									Apache Spark
							 
Apache spark 为嵌套结构生成Spark Avro记录命名空间
									Apache Spark
							 
Apache spark Kubernetes中的Spark作业处于运行状态
									Apache Spark
							 									Kubernetes
							 
Apache spark Spark读取BlobStorage文件“；java.io.IOException:没有用于scheme:https的文件系统；
									Apache Spark
							 
Apache spark 是'；加载'；行动或转变中的命令？
									Apache Spark
							 									Pyspark
							 
Apache spark 如何根据spark中的文件名从目录中读取特定文件？
									Apache Spark
							 
Apache spark “错误”；未知队列：root.default"；当火花屈服于纱线时
									Apache Spark
							 									Hadoop
							 									Pyspark
							 									Airflow
							 
Apache spark AWS EMR上的Livy jobs子任务
									Apache Spark
							 									Pyspark
							 									Airflow
							 
Apache spark 库伯内特斯上的齐柏林飞艇火花主设置
									Apache Spark
							 									Kubernetes
							 
Apache spark 将Spark on Thread配置为使用hadoop本机库
总结
									Apache Spark
							 
Apache spark 得到_腐败的“U记录”；从json读取时在pyspark中
									Apache Spark
							 									Pyspark
							 
Apache spark Spark DynamoDB连接问题
									Apache Spark
							 									Amazon Dynamodb
							 
Apache spark 如何使Spark流按顺序执行
问题
									Apache Spark
							 									Pyspark
							 
Apache spark 我们如何在Spark结构化流媒体中获得延迟度量？
									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Amazon Cloudformation
Doxygen
Network Programming
Certificate
Url Rewriting
Spring Integration
Curl
Routes
Java Me
Kibana
Eclipse Rcp
Lambda
Gitlab
Vb6
Documentation
Reflection
Resharper
Xcode4
Gremlin
Mongoose
Opengl
Ms Word
Migration
Microsoft Graph Api
Drools
Character Encoding
Angular
Asp.net
Sencha Touch
Swagger
Performance
Tabs
Apache Zookeeper
Maps
Polymer
Teradata
Git
Codeigniter
Telegram
Design Patterns
Class
Cors
Ios6
Encoding
Plot
Ag Grid
Wix
Maven 2
Vbscript
Requirejs
Mdx
Sitecore
Netbeans
Kotlin
Leaflet
Apache Nifi
Triggers
Elixir
Windows Phone
Sdk
Asp.net Mvc 4
Generics
R
Rest
Jquery
Nhibernate
Primefaces
Windows Phone 8
Twig
Antlr4
Single Sign On
Activemq
Sharepoint 2007
Doctrine
Random
Hash
Windbg
Netlogo
Openstack
Graphql
Combobox
Workflow
Jpa
Symfony1
Swift2
Virtual Machine
Session
Winapi
Uwp
Dynamic
Delphi
3d
Google App Maker
Stm32
Codenameone
Yocto
Xamarin.forms
Testing
Apache Kafka
Google Visualization
Sonarqube
Security
Websphere
Adobe
Web Services
Swiftui
Jaxb
Gtk
Joomla
Quickbooks
Algorithm
Grid
Erlang
Sbt
Coffeescript
Stripe Payments
Telerik
Composer Php
D3.js
Apache Flex
.htaccess
Azure Cosmosdb
Geometry
Openlayers
Actionscript
Nservicebus
Dll
Hyperlink
Javascript
Inno Setup
Ckeditor
Matrix
Web Applications
Silverstripe
Cloud
Clang
Cuda
Dom
Reactjs
Discord.js
Spring
Xquery
Exception
Xaml
Multithreading
Talend
Ethereum
Bots
Nativescript
Udp
Octave
Asp.net Mvc 2
Web Crawler
Google Sheets
Firefox
E Commerce
Struts2
Jestjs
Com
Model
Yaml
Jms
Sparql
Selenium
Cmake
Vue.js
Pyspark
Windows 7
Mongodb
Cloud Foundry
Tinymce
Caching
Omnet++
Sharepoint
Xna
Audio
Protractor
Subsonic
Permissions
Azure
Terminal
Dynamics Crm
Xpath
Pagination
Plsql
Uitableview
Compiler Construction
Drupal 7
Text
Compression
Rxjs
Prestashop
Windows Store Apps
Linux
Mapreduce
Stored Procedures
Sphinx
Sass
Wxpython
Unity3d
Extjs4


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网