Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
SPARK:使用带有SPARK群集的azure blob存储时,如何访问AzureFileSystemInstrumentation?_Azure_Apache Spark_Hadoop_Azure Storage Blobs_Metrics - Fatal编程技术网

SPARK:使用带有SPARK群集的azure blob存储时,如何访问AzureFileSystemInstrumentation?

SPARK:使用带有SPARK群集的azure blob存储时,如何访问AzureFileSystemInstrumentation?,azure,apache-spark,hadoop,azure-storage-blobs,metrics,Azure,Apache Spark,Hadoop,Azure Storage Blobs,Metrics,我正在从事一个spark项目,其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标,例如numberoffiles created,writenbytes等。在线搜索时,我遇到了一个特定的指标,hadoop azure包称之为AzureFileSystemInstrumentation。我不知道如何从spark访问相同的内容,也找不到相同内容的任何资源。对于给定的spark作业,如何访问此仪器?根据我的经验,我认为有三种解决方案可用于当前场景,如下所示 直接使用

我正在从事一个spark项目,其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标,例如
numberoffiles created
writenbytes
等。在线搜索时,我遇到了一个特定的指标,
hadoop azure
包称之为
AzureFileSystemInstrumentation
。我不知道如何从spark访问相同的内容,也找不到相同内容的任何资源。对于给定的spark作业,如何访问此仪器?

根据我的经验,我认为有三种解决方案可用于当前场景,如下所示

  • 直接使用for HDFS在Spark中获取HDFS度量数据,因为
    hadoop azure
    仅实现用于使用azure Blob存储的HDFS API,因此请参阅hadoop官方文档以了解您要使用的特定度量,例如
    CreateFileOps
    filecreated
    如下图所示,以获得
    numberoffilecreated
    。同时,还有一个类似的SO线程可供参考

  • 直接使用Azure Storage SDK for Java或其他语言您曾经编写过一个程序来统计存储在Azure Blob存储中的文件(按创建时间戳排序的Blob或其他),请参阅官方文档以了解如何使用其SDK

  • 使用Azure函数和Blob触发器来监视在Azure Blob存储中创建的文件的事件,然后您可以编写代码来统计每个Blob创建的事件,请参阅官方文档以了解如何使用Blob触发器。甚至,您可以将这些度量发送到Azure表存储或Azure SQL数据库或其他服务,以便稍后在Azure Blob触发器函数中进行统计