Hadoop 如何处理上传到HDFS的cvs文件的特定部分？_Hadoop_Hadoop Streaming_Hadoop Partitioning - Fatal编程技术网

Hadoop 如何处理上传到HDFS的cvs文件的特定部分？

hadoop

Hadoop 如何处理上传到HDFS的cvs文件的特定部分？,hadoop,hadoop-streaming,hadoop-partitioning,Hadoop,Hadoop Streaming,Hadoop Partitioning,如何处理上传到HDFS的cvs文件的特定部分？我是Hadoop新手，我有一个问题，如果我将关系数据库导出到cvs文件中，然后将其上载到HDFS中。所以，如何使用MapReduce处理文件中的特定部分（表）。提前感谢。我假设RDBMS表被导出为每个表的单独csv文件，并存储在HDFS中。我认为，当您提到“特定部分（表）”时，您指的是表中的列数据。如果是这样，请将各个csv文件放在单独的文件路径中，例如/user/userName/dbName/tables/table1.csv 现在，您可以为

如何处理上传到HDFS的cvs文件的特定部分？我是Hadoop新手，我有一个问题，如果我将关系数据库导出到cvs文件中，然后将其上载到HDFS中。所以，如何使用MapReduce处理文件中的特定部分（表）。

提前感谢。

我假设RDBMS表被导出为每个表的单独csv文件，并存储在HDFS中。我认为，当您提到“特定部分（表）”时，您指的是表中的列数据。如果是这样，请将各个csv文件放在单独的文件路径中，例如/user/userName/dbName/tables/table1.csv

现在，您可以为输入路径和字段引用配置作业。您可以考虑使用默认输入格式，以便映射器在一段时间内得到一行作为输入。根据配置/属性，您可以读取特定字段并处理数据。

允许您快速开始使用MapReduce。它有一个框架，允许您设置

点击

，以访问源文件（您的CSV文件），并在管道中处理它，例如将列A添加到列B中，并通过选择它们作为

字段将总和放入列C，
使用BigTable意味着将数据库转换为一个大表
表的特定部分是什么意思？导出的csv文件包含所有表，那么，如何处理文件中任何位置存在的特定表呢




[view]相关文章推荐



                                                        
View 我在ClearCase中的快照视图已消失，我如何才能恢复它们？
viewclearcase 
View 如何使用Linq从视图更新表到实体
view 
View 如何从另一个视图控制器更改UIButtons标签、标签颜色等？
view 
View eclipse rcp独立视图--如何在运行时显示隐藏的标题
view 
View 使用新的EmberJS路由器组织视图和控制器
viewember.js 
View EclipseRCP-阻止将视图移动到另一个文件夹（或仅阻止移动）
vieweclipse-rcp 
View 如何在drupal 7中创建横幅管理
viewdrupal-7 
View 如何在Laravel中渲染视图并将内容保存在文件中
viewlaravellaravel-4 
View 编辑视图SSMS更改为
view 
View SwiftUI：如何使用计时器在不同位置创建多个视图？
viewtimerswiftui 
                                       





随机文章推荐



                                                        
Swagger 招摇过市用户界面-选项请求中的问题以确保服务安全
swagger 
结合Swagger文档中的定义
swagger 
Swagger 大摇大摆用户界面上的CORS问题
swagger 
是否可以在Swagger ui之前添加登录页面？
swagger 
Swagger 显示不同项目中API的炫耀UI（炫耀）
swagger 
Swagger Microsoft Flow声明“如果；此操作没有输入。”；用于自定义API中的操作
swaggermicrosoft-graph-api 
如何隐藏我不知道的路线'；来自ServiceStack的t控件'；什么是招摇过市的特征？
swagger 
swagger editor online能否通过地址栏将YAML url作为输入？
swagger 
如何在回调函数Nodejs中使用swagger-ui-express.service和设置swagger文档
swagger 
使用Swashback为Swagger UI生成Get请求示例
swagger 
Swagger Swashbuckle未在Swagger.json中显示响应对象
swagger 
Swagger 如何从另一个OpenAPI文件导入组件？
swagger 
Swagger与.Net Core 3的集成
swagger 
Swagger 2使用字段而不是getter+；二传手
swagger 
以编程方式生成Swagger承载令牌
swagger 
Swagger Springfox类参数已弃用
swagger 
如何将Swagger与SpringDoc YAML集成？
swagger 
Swagger 弹簧休息问候服务的简单招摇文档
swagger 
Swagger IdentityServer3:未知客户端或未启用
swagger


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
Hadoop找不到映射程序
									Hadoop
							 									Mapreduce
							 
Hadoop ApachePig错误消息指南
									Hadoop
							 									Apache Pig
							 
Hadoop 将整个HDF从一个集群传输到另一个集群
									Hadoop
							 									Hive
							 
ClassNotFoundException，同时运行Hadoop的示例作业
									Hadoop
							 									Mapreduce
							 
Hadoop 如何将第一行输出为列限定符名称
									Hadoop
							 									Mapreduce
							 
在Cognos BI环境中使用Apache Hadoop
									Hadoop
							 
Hadoop 地图和地图是否可以动态识别？
									Hadoop
							 									Mapreduce
							 
Hadoop 无法使用配置单元服务器进行查询？
									Hadoop
							 									Hive
							 
Hadoop AWS EMR配置单元分区无法识别任何类型的分区
									Hadoop
							 									Amazon Web Services
							 									Amazon S3
							 									Hive
							 
未调用hadoop mapreduce分区器
									Hadoop
							 									Mapreduce
							 
Hadoop基准测试/性能测试
									Hadoop
							 
Hadoop hdfs dfs-getmerge命令做什么？
									Hadoop
							 
Hadoop 配置单元查询中聚合列的使用
									Hadoop
							 									Hive
							 
Hadoop 无法使用Pig写入SequenceFile
									Hadoop
							 									Apache Pig
							 
Hadoop 将文本文件（包含页面）加载到架构中，但不使用任何分隔符
									Hadoop
							 									Mapreduce
							 									Apache Pig
							 
Hadoop中Map任务的核心相似性
									Hadoop
							 
Hadoop：如何将作业发送到mapreduce上的主节点和节点？
									Hadoop
							 
Hadoop Spark 1.6.1 SASL
									Hadoop
							 									Apache Spark
							 
Hadoop 单个sqoop作业是否可以用于多个表并同时运行
									Hadoop
							 
Hadoop 配置单元2.1.0:无法移动源
									Hadoop
							 									Apache Spark
							 									Hive
							 
Hadoop Spark提交后如何获取输入
									Hadoop
							 									Apache Spark
							 
Hadoop 无法启动Spark的主进程
									Hadoop
							 									Apache Spark
							 
Hadoop 从远程客户端提交纱线簇上的Spark作业
									Hadoop
							 									Apache Spark
							 									Cluster Computing
							 
为什么Hadoop MapReduce进程多次向后运行
									Hadoop
							 									Mapreduce
							 
Hadoop 用于确定子集的配置单元SQL
									Hadoop
							 									Hive
							 
Hadoop Sqoop语法导入数据库中100个表中的5个-don'；不使用排除关键字？
									Hadoop
							 
Hadoop无法运行
									Hadoop
							 
Hadoop 该示例如何在Oozie最佳情况下找到库？
									Hadoop
							 
如何使用Scalamock模拟Hadoop FileStatus类？
									Hadoop
							 
Hadoop 如何更改hbase表扫描结果顺序
									Hadoop
							 									Hbase
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Angularjs
Office365
Sdk
Ajax
Pip
Certificate
Nosql
Kentico
Salesforce
Sprite Kit
Openlayers 3
Django
D3.js
Cloud Foundry
Amazon Ec2
Ibm Mobilefirst
Xna
Sonarqube
Acumatica
Jakarta Ee
Jar
Internet Explorer
Hybris
Llvm
Plone
Objective C
Internationalization
Identityserver4
Embedded
Seo
Coffeescript
Fullcalendar
Android Studio
Firebase
Laravel 5
Windows Phone 8
Junit
Ruby On Rails 3.2
Kubernetes
Plugins
.net 4.0
Image
Entity Framework
Qt4
Webview
Exception Handling
Nuget
Ruby On Rails 3.1
Clojure
Serialization
Usb
Google Cloud Firestore
Reactjs
Templates
Frameworks
Sip
Core Data
Dask
Css
Leaflet
Stanford Nlp
Sml
Api
Aurelia
Autodesk Forge
Sharepoint 2010
Encryption
Mule
Jsf 2
R
Phantomjs
Json
Logstash
Selenium Webdriver
Open Source
Twitter
Bison
Azure Sql Database
Windows Phone 7
Netsuite
Layout
Glsl
Jms
Gstreamer
Google Calendar Api
Object
Erlang
Unicode
Openid
Firefox
Xamarin
Struts2
Postman
Methods
Architecture
Sql Server 2005
Zsh
Ios8
Wicket
Vuejs2
Apache2
Xslt
Nsis
Stripe Payments
Facebook
Ipad
Calendar
Sqlalchemy
Mongoose
Android Emulator
Xpages
Apache Pig
Reflection
Youtube
Plsql
Visual Studio 2013
Discord.py
EmptyTag
Windows Services
Google Maps
Corda
Reporting Services
Spring Security
Amazon S3
Properties
Zurb Foundation
Dialogflow Es
Google Apps Script
Laravel 4
Vagrant
Iphone
Windows
Prestashop
Aframe
Exchange Server
Amazon Redshift
Passwords
Uiview
Instagram
Tridion
Knockout.js
Biztalk
Git
Adobe
Scheme
Pyspark
Active Directory
Types
For Loop
Iis 7
Gtk
Doctrine Orm
Io
Azure Data Factory
Nservicebus
Asterisk
Navigation
Sublimetext2
Log4j
Floating Point
Sbt
Teradata
Streaming
Content Management System
View
Anaconda
Telerik
Eclipse Plugin
Airflow
Omnet++
Ruby On Rails 4
Deep Learning
Canvas
Twitter Bootstrap 3
Keras
.net Core
Rspec
Xamarin.android
Select
Smtp
Uitableview
Windbg
Grid
Material Ui
Random
Dojo
Bazel
Ssas
Jira
Macros
Filter
Vaadin
Pdf
Youtube Api
Delphi
Netty
Process
Ionic2
Apache Camel
Xamarin.ios
Command Line


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网