Apache spark 附加火花&x27；安装'；s访问HDFS和Hive_Apache Spark_Cloudera Quickstart Vm - Fatal编程技术网

Apache spark 附加火花&x27；安装'；s访问HDFS和Hive

apache-spark

Apache spark 附加火花&x27；安装'；s访问HDFS和Hive,apache-spark,cloudera-quickstart-vm,Apache Spark,Cloudera Quickstart Vm,我安装了Cloudera Quickstart VM 5.5.0，并捆绑了Spark v1.5.0。当我启动火花壳时 scala> val data = sc.textFile("/hdfs/path/file.csv") Spark能够读取HDFS（通过使用数据进行验证。首先），即使没有hdfs://namenode:port/URL。因为我有一个旧版本Spark的用例，即v1.4.0。我已将旧版本安装/卸载到HOME dir 当我尝试做同样的事情时，sc.textFile指向Lin

我安装了Cloudera Quickstart VM 5.5.0，并捆绑了Spark v1.5.0。当我启动火花壳时

scala> val data = sc.textFile("/hdfs/path/file.csv")

Spark能够读取HDFS（通过使用

数据进行验证。首先），即使没有hdfs://namenode:port/URL。
因为我有一个旧版本Spark的用例，即v1.4.0。我已将旧版本安装/卸载到HOME dir
当我尝试做同样的事情时，sc.textFile指向Linux本地文件系统，而不是HDFS。即使没有指定hdfs://namenode:port/
URL
第二件事是，为了访问配置单元表，我将Hive-site.xml复制到Spark的conf dir。在Spark default安装中执行此操作后，我可以轻松地查询配置单元表：
scala> val orders = sqlContext.sql("SELECT * FROM default.orders")

scala> orders.limit(5).foreach(println)

这将显示行
当我尝试在Spark v1.4上做同样的事情时，我会出错。如何以与默认安装相同的方式访问配置单元表？
在spark类路径中添加hadoop conf目录。sc.textFile在soark-1.5和spark-1中的行为相同。4@shekhar将spark-env.sh复制到原始spark（v1.5）的conf到其他spark（v1.4）中可以吗？检查spark-env.sh中HADOOP_conf_DIR的值，它应该指向您的HADOOP/conf目录




[ipython]相关文章推荐



                                                        
使用rmagic扩展的Ipython笔记本崩溃
ipython 
ipython笔记本电脑0.12.1和0.13.1的兼容性
ipython 
IPython笔记本电脑WebSocket连接失败
ipython 
Can'；不要在spyder中安装ipython控制台
ipython 
Ipython 删除nbconvert--to html'；在'；和'；输出'；基于单元元数据的提示
ipython 
Can'；在Windows上使用Anaconda转换ipython笔记本电脑
ipythonjupyter-notebook 
Ipython 无法在Jupyter笔记本中获取python3
ipython 
Ipython 手动提取ipywidget值
ipythonjupyter-notebook 
Ipython 交互工作时保持提示居中
ipython 
Ipython 带有嵌入式、非阻塞python外壳的PySide应用程序？
ipython 
                                       





随机文章推荐



                                                        
Google cloud storage 谷歌云存储：上传文件时放置对象与发布对象。？
google-cloud-storage 
Google cloud storage google cloud storage是否可以检查我的硬盘上的备份文件夹，并仅更新'；你变了？
google-cloud-storage 
Google cloud storage “gsutil返回”；“未经授权的客户”；
google-cloud-storage 
Google cloud storage 谷歌云存储可恢复上传-uploadid可恢复吗
google-cloud-storage 
Google cloud storage 允许在现有文件上使用gzip
google-cloud-storage 
Google cloud storage 谷歌存储：德国是否有一个地区存储桶？
google-cloud-storage 
Google cloud storage 在Google云上上载自定义windows server 2012R2映像
google-cloud-storagegoogle-compute-enginegoogle-cloud-platform 
Google cloud storage 在可恢复上载的Google云存储上丢失文件属性
google-cloud-storage 
Google cloud storage 使用gsutil执行rsync时公开文件
google-cloud-storage 
Google cloud storage 如何减少Google cloud SQL上的负载？
google-cloud-storagegoogle-compute-enginegoogle-cloud-platform 
Google cloud storage 谷歌云存储浏览器转义空间
google-cloud-storage 
Google cloud storage 使用Google datalab：将csv写入存储
google-cloud-storage 
Google cloud storage 如何等待GCS使用写入（刷新）到GCS存储桶？
google-cloud-storagegoogle-compute-engine 
Google cloud storage Can'；尽管已登录，但仍无法从Python连接到GCS bucket
google-cloud-storage 
Google cloud storage 如何消除gsutil中的命令异常问题
google-cloud-storage 
Google cloud storage 了解数据存储导出中的输出文件
google-cloud-storage


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 是否存在hadoop map reduce可以比ApacheSpark做得更好的用例？
									Apache Spark
							 									Hadoop
							 									Mapreduce
							 
Apache spark 在Spark Streaming中有没有一种方法可以从嵌套目录中流式传输文件？
									Apache Spark
							 
Apache spark Spark电子邮件处理
									Apache Spark
							 									Apache Kafka
							 
Apache spark 如何重写代码以避免在Spark 1.3.1中使用SqlContext.read（）？
									Apache Spark
							 
Apache spark 创建spark上下文py4j.protocol.Py4JNetworkError时出错：尝试连接到Java服务器时出错
									Apache Spark
							 									Cassandra
							 									Pyspark
							 
Apache spark 如何在Spark Streaming中并行映射键/值分区
									Apache Spark
							 									Parallel Processing
							 
Apache spark 火花嵌套RDD限制
									Apache Spark
							 
Apache spark 如何在Spark应用程序中显示语句序列的逐步执行？
									Apache Spark
							 									Pyspark
							 
Apache spark 将spark sql数据帧导出到csv时出错
									Apache Spark
							 									Pyspark
							 
Apache spark ApacheSpark：如何进行不同的计数和一起计数？
									Apache Spark
							 
Apache spark 配置单元表在Tableau中不可见
									Apache Spark
							 									Tableau Api
							 
Apache spark 在Pyspark HiveContext中，SQL偏移量的等效值是什么？
									Apache Spark
							 									Hive
							 									Pyspark
							 
Apache spark 需要架构提示：数据复制到云中+；数据清洗
									Apache Spark
							 									Apache Kafka
							 
Apache spark 如何限制从RabbitMQ到spark流的消息数
									Apache Spark
							 									Rabbitmq
							 
Apache spark 将嵌套json作为字符串加载
									Apache Spark
							 									Pyspark
							 
Apache spark 数值数据的Logistic回归
									Apache Spark
							 
Apache spark 使用spark从csv文件中删除所有特殊字符
									Apache Spark
							 
Apache spark pyspark-聚合（和）向量元素
									Apache Spark
							 									Pyspark
							 
Apache spark 第页上的内存、vCore和磁盘是什么？
									Apache Spark
							 									Hadoop
							 
Apache spark 有没有办法在dataframe级别优化dataframe.writer.partitionBy？
									Apache Spark
							 
Apache spark 运行spark submit时出错：java.lang.NoClassDefFoundError:kafka/common/TopicAndPartition
									Apache Spark
							 									Pyspark
							 									Apache Kafka
							 
Apache spark Pyspark datafame.limit（）和drop_duplicates（）提供错误的输出
									Apache Spark
							 									Pyspark
							 
Apache spark gz格式如何使用命令解压
									Apache Spark
							 									Hadoop
							 									Logging
							 
Apache spark 如何在spark submit的shell脚本中捕获作业状态
									Apache Spark
							 									Airflow
							 
Apache spark 创建外部分区表GCP Bucket
									Apache Spark
							 									Google Cloud Platform
							 									Hive
							 
Apache spark 在pyspark中将两个数据帧中的一个数据帧作为单独的子列
									Apache Spark
							 									Pyspark
							 
Apache spark PyArrow>；=必须安装0.8.0；但是，没有找到它
									Apache Spark
							 									Pyspark
							 									Anaconda
							 
Apache spark 无法将Pyspark数据帧发送到Kafka主题
									Apache Spark
							 									Pyspark
							 									Apache Kafka
							 
Apache spark Pyspark用于将列字符串转换为日期
									Apache Spark
							 									Pyspark
							 
Apache spark Spark 3.0 UTC到AKST转换失败，ZoneRulesException:未知时区ID
									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Puppet
Typescript
Docker Compose
Unix
Symfony
Facebook Graph Api
Browser
Couchdb
Powershell
Process
Playframework
Tinymce
Safari
Date
Graphics
Variables
Libgdx
Nosql
Web Crawler
Internet Explorer 8
Reflection
Rust
Python 3.x
Math
Algorithm
Openerp
Function
Composer Php
Prestashop
Sed
Geometry
Passwords
Directory
Angularjs
Verilog
Swift
Workflow
Chef Infra
Blazor
Ckeditor
Excel
C++11
Laravel 5
Sql Server 2008
Domain Driven Design
Io
Core Data
Linkedin
Animation
Solr
Nginx
Serial Port
Asynchronous
Shell
Cassandra
Jboss
Lisp
Postgresql
Colors
Yaml
Artificial Intelligence
Webrtc
Configuration
Linker
Exception Handling
Docker
Itext
Data Structures
Computer Vision
Mpi
Pentaho
Methods
Cygwin
Firefox Addon
Github
Sas
Hibernate
Maven
Clojure
Visual Studio 2012
Memory Management
Push Notification
Fiware
Content Management System
Angular
Tridion
Log4j
Amazon Ec2
Database Design
Oracle Apex
Windows Mobile
Transactions
Swift2
Rest
Datatables
Mdx
Keyboard
Rdf
Sharepoint
Xampp
Design Patterns
Sapui5
Youtube Api
Documentation
Printing
Project Management
Neo4j
Rally
Cocoa
Javascript
Terminal
Listview
Devexpress
.net Core
Deep Learning
Sphinx
Teradata
Stata
Here Api
User Interface
Instagram
Socket.io
Django Models
Dependency Injection
Windows Phone 8
Spring Security
Intellij Idea
Hash
Breeze
File
Ssh
Unit Testing
Akka
Interface
Extjs4
Perforce
Jpa
Mfc
Dll
Protocol Buffers
Gulp
Julia
Input
Ide
Arrays
Lua
Parse Platform
Atom Editor
Visual Studio 2015
Ms Office
Pycharm
Xamarin.ios
Stream
Nsis
Orientdb
Jetty
Xamarin.android
Autohotkey
Routing
Swift3
Performance
Google Analytics
Ssrs 2008
Webstorm
Iframe
Snmp
Qt
Heroku
Nunit
Android Ndk
Redux
Ravendb
Mongodb
Google Drive Api
Jqgrid
Razor
Antlr4
Liferay
Search
Android
Ipython
Wolfram Mathematica
Windows 7
Exception
Amazon Web Services
Dynamic
Logstash
Xaml
C++
Google Chrome Extension
Frameworks
Iis 7
Routes
Jupyter Notebook
Cordova
Antlr
Datetime
Biztalk
Sublimetext3
Python Sphinx
Hadoop


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网