Azure Hadoop与MSSQL报告的可能性_Azure_Hadoop_Hive_Hbase_Azure Hdinsight

Azure Hadoop与MSSQL报告的可能性

azure hadoop hive hbase

Azure Hadoop与MSSQL报告的可能性,azure,hadoop,hive,hbase,azure-hdinsight,Azure,Hadoop,Hive,Hbase,Azure Hdinsight,我一直在评估azure HDInsight上的Hadoop，以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是，我需要与MSSQL Reporting Services集成，因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源，所以我越能将其转化为工程实践就越好。到目前为止我都试过了使用MSSQL中映射到HDInsight上配置单元的ODBC连接使用HDInsight上的HBASE从MSSQL使用ODBC连接在azure HDInsight远程桌面上本地使用SP

我一直在评估azure HDInsight上的Hadoop，以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是，我需要与MSSQL Reporting Services集成，因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源，所以我越能将其转化为工程实践就越好。到目前为止我都试过了

使用MSSQL中映射到HDInsight上配置单元的ODBC连接
使用HDInsight上的HBASE从MSSQL使用ODBC连接
在azure HDInsight远程桌面上本地使用SPARKQL

我发现HBASE和Hive在报告中的使用速度要慢得多。对于测试数据，我使用了一个有60k行的表，发现MSSQL上的报告在不到10秒内运行。我在配置单元查询控制台和ODBC连接上运行了该查询，发现执行该查询花费了一分钟多的时间。Spark速度更快（30秒），但无法从外部连接到它，因为HDInsight群集上的端口无法打开

大数据和Hadoop对我来说都是新鲜事。我的问题是，我是否在寻找Hadoop来做它不是设计用来做的事情，有没有办法让它更快？我曾考虑过缓存结果并定期刷新它们，但这听起来像是一场管理噩梦。Kylin看起来很有前途，但我们与windows azure结为连理，因此我不确定这是一个可行的解决方案。

请查看有关优化配置单元查询的文档：

具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群，然后以ORC格式存储数据。您的查询应该会更加高效

查看有关优化配置单元查询的文档：

具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群，然后以ORC格式存储数据。您的查询应该会更加高效 < P>如果通过SARK速度足够快，则应该考虑使用。我正在使用它，它的性能无法与MSSQL、其他RDBMS或类似ElasticSearch的东西相比，但它确实工作得非常可靠。

你想用Hadoop取代SQL Server，有什么原因吗？在当前的实施中，什么不起作用？@marek这是公司的“自上而下”请求，我不想在这里讨论。本质上，我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装，我的印象是，由于HDInsight集群上的端口限制，这将不起作用。另外，使用Impala而不是Tez有什么好处（如果有的话）？Hive适用于复杂的长时间运行的查询（想想ETL或推荐引擎），而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快，但由于没有实际操作经验，我也无法推荐。这里没有Azure经验，但可以从市场上安装Cloudera。这是一个预生产版本，所以它一定是新的。我提到了黑斑羚，因为我使用它。它并不完美，但速度很快。下载Cloudera QuickStart虚拟机，在笔记本电脑上运行，加载测试数据集，您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么？在当前的实施中，什么不起作用？@marek这是公司的“自上而下”请求，我不想在这里讨论。本质上，我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装，我的印象是，由于HDInsight集群上的端口限制，这将不起作用。另外，使用Impala而不是Tez有什么好处（如果有的话）？Hive适用于复杂的长时间运行的查询（想想ETL或推荐引擎），而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快，但由于没有实际操作经验，我也无法推荐。这里没有Azure经验，但可以从市场上安装Cloudera。这是一个预生产版本，所以它一定是新的。我提到了黑斑羚，因为我使用它。它并不完美，但速度很快。下载Cloudera QuickStart虚拟机，在笔记本电脑上运行，加载测试数据集，您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么？在当前的实施中，什么不起作用？@marek这是公司的“自上而下”请求，我不想在这里讨论。本质上，我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装，我的印象是，由于HDInsight集群上的端口限制，这将不起作用。另外，使用Impala而不是Tez有什么好处（如果有的话）？Hive适用于复杂的长时间运行的查询（想想ETL或推荐引擎），而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快，但由于没有实际操作经验，我也无法推荐。这里没有Azure经验，但可以从市场上安装Cloudera。这是一个预生产版本，所以它一定是新的。我提到了黑斑羚，因为我使用它。它并不完美，但速度很快。下载Cloudera QuickStart虚拟机，在笔记本电脑上运行，加载测试数据集，您将能够比较Hive和Impala。