使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它?

使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它?,hadoop,apache-spark,hive,hdfs,apache-spark-sql,Hadoop,Apache Spark,Hive,Hdfs,Apache Spark Sql,在Ubuntu服务器上,我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 () 然后我想用Airbnb超集来可视化数据,它有几个连接到公共数据库的连接器(感谢SqlAlchemy),但没有连接到HDFS 得益于JDBC配置单元(),超集特别有一个到SparkSQL的连接器 那么,是否可以使用它来检索HDFS clickstream数据?谢谢要在SparkSQL中读取HDFS数据,有两种主要方法取决于您的设置: 按照配置单元中的定

在Ubuntu服务器上,我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 ()

然后我想用Airbnb超集来可视化数据,它有几个连接到公共数据库的连接器(感谢SqlAlchemy),但没有连接到HDFS

得益于JDBC配置单元(),超集特别有一个到SparkSQL的连接器


那么,是否可以使用它来检索HDFS clickstream数据?谢谢

要在SparkSQL中读取HDFS数据,有两种主要方法取决于您的设置:

  • 按照配置单元中的定义读取表(从远程元存储读取)(可能不是您的情况)
  • 默认情况下,SparkSQL(如果没有另外配置的话)创建一个允许您使用配置单元语法发出DDL和DML语句的。 你需要一个能让它正常工作的工具
    com.databricks:spark avro

    CREATE TEMPORARY TABLE divolte_data
    USING com.databricks.spark.avro
    OPTIONS (path "path/to/divolte/avro");
    

  • 现在,如果您询问spark sql是否可以连接到HDFS,那么表中的数据应该是可用的。那么答案是肯定的。谢谢你的回答