如何将mongodb数据连续写入正在运行的hdinsight集群

如何将mongodb数据连续写入正在运行的hdinsight集群,mongodb,azure,hadoop,azure-hdinsight,Mongodb,Azure,Hadoop,Azure Hdinsight,我希望保持windows azure hdinsight群集始终运行,以便我可以定期从主数据存储(即mongodb)写入更新,并让it process map按需减少作业 如何定期将mongodb中的数据与hdinsight服务同步?我试图不必在任何时候提交新查询时上传所有数据,而是以某种方式对其进行预热 这在hdinsight上可能吗?使用hadoop可能吗? 谢谢,当然可以将这些数据从Mongo推送到Hadoop中 不幸的是,HDInsight还不支持HBase,否则您可以使用类似Strip

我希望保持windows azure hdinsight群集始终运行,以便我可以定期从主数据存储(即mongodb)写入更新,并让it process map按需减少作业

如何定期将mongodb中的数据与hdinsight服务同步?我试图不必在任何时候提交新查询时上传所有数据,而是以某种方式对其进行预热

这在hdinsight上可能吗?使用hadoop可能吗?
谢谢,

当然可以将这些数据从Mongo推送到Hadoop中

不幸的是,HDInsight还不支持HBase,否则您可以使用类似Stripe的解决方案,读取Mongo用于复制的MongoDB操作日志,然后将其写入HBase

另一种解决方案可能是将文档从Mongo写入Azure Blob存储,这意味着您不必一直启动群集,但可以使用它定期对存储库中的文件进行map reduce分析


您最好的方法无疑是使用Mongo Hadoop连接器。这可以安装在HDInsight中,但有点麻烦

我应该让10gen维护一个方法,但我不能在hdinsight中安装它(它是一个托管服务)