使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它?
在Ubuntu服务器上,我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 () 然后我想用Airbnb超集来可视化数据,它有几个连接到公共数据库的连接器(感谢SqlAlchemy),但没有连接到HDFS 得益于JDBC配置单元(),超集特别有一个到SparkSQL的连接器使用SparkSQL连接器从Hadoop HDFS读取数据以在超集中可视化它?,hadoop,apache-spark,hive,hdfs,apache-spark-sql,Hadoop,Apache Spark,Hive,Hdfs,Apache Spark Sql,在Ubuntu服务器上,我设置了Divolte Collector从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 () 然后我想用Airbnb超集来可视化数据,它有几个连接到公共数据库的连接器(感谢SqlAlchemy),但没有连接到HDFS 得益于JDBC配置单元(),超集特别有一个到SparkSQL的连接器 那么,是否可以使用它来检索HDFS clickstream数据?谢谢要在SparkSQL中读取HDFS数据,有两种主要方法取决于您的设置: 按照配置单元中的定
那么,是否可以使用它来检索HDFS clickstream数据?谢谢要在SparkSQL中读取HDFS数据,有两种主要方法取决于您的设置:
com.databricks:spark avro
CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");
现在,如果您询问spark sql是否可以连接到HDFS,那么表中的数据应该是可用的。那么答案是肯定的。谢谢你的回答