使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它？_Hadoop_Apache Spark_Hive_Hdfs_Apache Spark Sql

使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它？

hadoop apache-spark hive

使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它？,hadoop,apache-spark,hive,hdfs,apache-spark-sql,Hadoop,Apache Spark,Hive,Hdfs,Apache Spark Sql,在Ubuntu服务器上，我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS（Avro文件）中。（）然后我想用Airbnb超集来可视化数据，它有几个连接到公共数据库的连接器（感谢SqlAlchemy），但没有连接到HDFS 得益于JDBC配置单元（），超集特别有一个到SparkSQL的连接器那么，是否可以使用它来检索HDFS clickstream数据？谢谢要在SparkSQL中读取HDFS数据，有两种主要方法取决于您的设置：按照配置单元中的定

在Ubuntu服务器上，我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS（Avro文件）中。（）

然后我想用Airbnb超集来可视化数据，它有几个连接到公共数据库的连接器（感谢SqlAlchemy），但没有连接到HDFS

得益于JDBC配置单元（），超集特别有一个到SparkSQL的连接器

那么，是否可以使用它来检索HDFS clickstream数据？谢谢

要在SparkSQL中读取HDFS数据，有两种主要方法取决于您的设置：

按照配置单元中的定义读取表（从远程元存储读取）（可能不是您的情况）

默认情况下，SparkSQL（如果没有另外配置的话）创建一个允许您使用配置单元语法发出DDL和DML语句的。你需要一个能让它正常工作的工具

com.databricks:spark avro

CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");

现在，如果您询问spark sql是否可以连接到HDFS，那么表中的数据应该是可用的。那么答案是肯定的。谢谢你的回答