Azure Hadoop与MSSQL报告的可能性
我一直在评估azure HDInsight上的Hadoop,以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是,我需要与MSSQL Reporting Services集成,因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源,所以我越能将其转化为工程实践就越好。到目前为止我都试过了Azure Hadoop与MSSQL报告的可能性,azure,hadoop,hive,hbase,azure-hdinsight,Azure,Hadoop,Hive,Hbase,Azure Hdinsight,我一直在评估azure HDInsight上的Hadoop,以便为我们的报告应用程序找到一个大数据解决方案。此技术评估的关键部分是,我需要与MSSQL Reporting Services集成,因为这是我们的应用程序已经使用的。我们非常缺乏开发人员资源,所以我越能将其转化为工程实践就越好。到目前为止我都试过了 使用MSSQL中映射到HDInsight上配置单元的ODBC连接 使用HDInsight上的HBASE从MSSQL使用ODBC连接 在azure HDInsight远程桌面上本地使用SP
- 使用MSSQL中映射到HDInsight上配置单元的ODBC连接
- 使用HDInsight上的HBASE从MSSQL使用ODBC连接
- 在azure HDInsight远程桌面上本地使用SPARKQL
大数据和Hadoop对我来说都是新鲜事。我的问题是,我是否在寻找Hadoop来做它不是设计用来做的事情,有没有办法让它更快?我曾考虑过缓存结果并定期刷新它们,但这听起来像是一场管理噩梦。Kylin看起来很有前途,但我们与windows azure结为连理,因此我不确定这是一个可行的解决方案。请查看有关优化配置单元查询的文档:
具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群,然后以ORC格式存储数据。您的查询应该会更加高效 查看有关优化配置单元查询的文档:
具体来看兽人和使用Tez。我将创建一个默认启用Tez的集群,然后以ORC格式存储数据。您的查询应该会更加高效如果通过火花足够快,你应该考虑使用。我正在使用它,性能与MSSQL、其他RDBMS或类似弹跳搜索之类的东西不可比,但它确实非常可靠。 < P>如果通过SARK速度足够快,则应该考虑使用。我正在使用它,它的性能无法与MSSQL、其他RDBMS或类似ElasticSearch的东西相比,但它确实工作得非常可靠。你想用Hadoop取代SQL Server,有什么原因吗?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。您想用Hadoop替换SQL Server的原因是什么?在当前的实施中,什么不起作用?@marek这是公司的“自上而下”请求,我不想在这里讨论。本质上,我们正在为大型数据集寻找非常低延迟的报告解决方案。关于Cloudera发行版安装,我的印象是,由于HDInsight集群上的端口限制,这将不起作用。另外,使用Impala而不是Tez有什么好处(如果有的话)?Hive适用于复杂的长时间运行的查询(想想ETL或推荐引擎),而不是报告。它在引擎盖下使用MapReduce。Tez上的Hive或Spark上的Hive将更快,但由于没有实际操作经验,我也无法推荐。这里没有Azure经验,但可以从市场上安装Cloudera。这是一个预生产版本,所以它一定是新的。我提到了黑斑羚,因为我使用它。它并不完美,但速度很快。下载Cloudera QuickStart虚拟机,在笔记本电脑上运行,加载测试数据集,您将能够比较Hive和Impala。