Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Azure storage blobs 从HDInsight中的Azure表存储读取数据_Azure Storage Blobs_Azure Table Storage_Azure Hdinsight - Fatal编程技术网

Azure storage blobs 从HDInsight中的Azure表存储读取数据

Azure storage blobs 从HDInsight中的Azure表存储读取数据,azure-storage-blobs,azure-table-storage,azure-hdinsight,Azure Storage Blobs,Azure Table Storage,Azure Hdinsight,我想使用Azure表存储作为在HDInsight上运行的Hadoop应用程序的数据源。我只找到了MSFT,但是没有足够的文档。关于从Azure Table采购,我有几个问题: 1) 数据块是如何形成的?让我们来看看,我能把一个分区的记录给每个映射器吗?如果是,如果分区包含大量记录,会发生什么情况?若否,如何运作 2) Hadoop应用程序也可以输出到Azure表吗 3) Hadoop作业能否从两个(或更多)Azure表中获取数据?如果是,如何在映射器中区分它们?e、 g.当从多个文件中获取数据时

我想使用Azure表存储作为在HDInsight上运行的Hadoop应用程序的数据源。我只找到了MSFT,但是没有足够的文档。关于从Azure Table采购,我有几个问题:

1) 数据块是如何形成的?让我们来看看,我能把一个分区的记录给每个映射器吗?如果是,如果分区包含大量记录,会发生什么情况?若否,如何运作

2) Hadoop应用程序也可以输出到Azure表吗


3) Hadoop作业能否从两个(或更多)Azure表中获取数据?如果是,如何在映射器中区分它们?e、 g.当从多个文件中获取数据时,我们可以根据输入的文件名来区分记录。

这篇博客文章对其进行了一些记录,并回答了您关于映射器的问题:

据我所知,您无法使用此库插入Azure表存储


我相信您可以通过创建两个外部表并将它们连接到Hive中来读取两个表

如果您使用的是HDInsight,那么您可能是在用Java编写代码,这意味着您希望查看Azure存储。有关使用Azure存储表的最佳实践,请查看此最佳实践。谢谢,但我主要关心的是在HDInsight中获取数据。Azure存储Java客户端将是底层。我需要在上面加一层。我已经读过这篇博文,但它很短,没有解释细节。我如何更改azure tables hadoop库,以便mapper获得属于多个partitionkey的实体?默认行为是为每个映射器提供一个partitionkey的实体。@H.Z.幸运的是,它是开放源代码,因此您可以根据自己的需要进行更改。是的,但我不太明白该如何做。据我所知,我应该扩展BaseAzureTablePartitioner类并编写自己的类。我遇到了两个问题1)我应该将什么逻辑放入MyCustomizedAzureTablePartitioner类中,以便每个映射程序都使用多个分区2)我如何使库使用MyCustomizedAzureTablePartitioner。你能帮我吗?