使用IaaS在Azure上开发Hadoop
我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop群集。由于数据量非常大,我希望将数据存储在辅助存储中,如Azure data Lake Store和Hadoop cluster storage将作为主存储。 我想知道,如何配置它,以便在创建配置单元表和分区时,部分数据可以驻留在主存储中,其余数据可以驻留在辅助存储中 谢谢 当做使用IaaS在Azure上开发Hadoop,azure,hadoop,hortonworks-data-platform,azure-data-lake,Azure,Hadoop,Hortonworks Data Platform,Azure Data Lake,我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop群集。由于数据量非常大,我希望将数据存储在辅助存储中,如Azure data Lake Store和Hadoop cluster storage将作为主存储。 我想知道,如何配置它,以便在创建配置单元表和分区时,部分数据可以驻留在主存储中,其余数据可以驻留在辅助存储中 谢谢 当做 默认情况下,不能将文件系统与配置单元表混合使用。配置单元元存储区仅包含数据库/表定义的一个文件系统位置 您可能会尝试使用来设置联合配置单元解决方案,但这
默认情况下,不能将文件系统与配置单元表混合使用。配置单元元存储区仅包含数据库/表定义的一个文件系统位置
您可能会尝试使用来设置联合配置单元解决方案,但这可能比简单地允许配置单元数据存在于Azure中太多了我不知道Hadoop和配置单元,但您可以将Azure data Lake Store(ADLS)和Azure SQL data Warehouse(ADW)结合起来,ie使用ADW中的Polybase创建ADL中“冷”数据的外部表和“热”数据的内部表。ADW的优点是您可以暂停它 (可选)在顶部创建视图以合并外部表和内部表