Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Azure Hadoop与MSSQL报告的可能性_Azure_Hadoop_Hive_Hbase_Azure Hdinsight - Fatal编程技术网

Azure Hadoop与MSSQL报告的可能性

Azure Hadoop与MSSQL报告的可能性,azure,hadoop,hive,hbase,azure-hdinsight,Azure,Hadoop,Hive,Hbase,Azure Hdinsight,我一直在评估azure HDInsight上的Hadoop,以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是,我需要与MSSQL Reporting Services集成,因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源,所以我越能将其转化为工程实践就越好。到目前为止我都试过了 使用MSSQL中映射到HDInsight上配置单元的ODBC连接 使用HDInsight上的HBASE从MSSQL使用ODBC连接 在azure HDInsight远程桌面上本地使用SP

我一直在评估azure HDInsight上的Hadoop,以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是,我需要与MSSQL Reporting Services集成,因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源,所以我越能将其转化为工程实践就越好。到目前为止我都试过了

  • 使用MSSQL中映射到HDInsight上配置单元的ODBC连接
  • 使用HDInsight上的HBASE从MSSQL使用ODBC连接
  • 在azure HDInsight远程桌面上本地使用SPARKQL
我发现HBASE和Hive在报告中的使用速度要慢得多。对于测试数据,我使用了一个有60k行的表,发现MSSQL上的报告在不到10秒内运行。我在配置单元查询控制台和ODBC连接上运行了该查询,发现执行该查询花费了一分钟多的时间。Spark速度更快(30秒),但无法从外部连接到它,因为HDInsight群集上的端口无法打开


大数据和Hadoop对我来说都是新鲜事。我的问题是,我是否在寻找Hadoop来做它不是设计用来做的事情,有没有办法让它更快?我曾考虑过缓存结果并定期刷新它们,但这听起来像是一场管理噩梦。Kylin看起来很有前途,但我们与windows azure结为连理,因此我不确定这是一个可行的解决方案。

请查看有关优化配置单元查询的文档:


具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群,然后以ORC格式存储数据。您的查询应该会更加高效

查看有关优化配置单元查询的文档:


具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群,然后以ORC格式存储数据。您的查询应该会更加高效 < P>如果通过SARK速度足够快,则应该考虑使用。我正在使用它,它的性能无法与MSSQL、其他RDBMS或类似ElasticSearch的东西相比,但它确实工作得非常可靠。

你想用Hadoop取代SQL Server,有什么原因吗?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。