使用在HDI中运行的python访问blob存储
我正在编写一个pig嵌入式python脚本,该脚本在HDInsights中启动并运行 我试图向python部分添加一个条件块,其中 检查blob存储中的路径(例如。wasb://container@帐户/路径) 并基于此检查更新变量使用在HDI中运行的python访问blob存储,python,apache-pig,azure-hdinsight,Python,Apache Pig,Azure Hdinsight,我正在编写一个pig嵌入式python脚本,该脚本在HDInsights中启动并运行 我试图向python部分添加一个条件块,其中 检查blob存储中的路径(例如。wasb://container@帐户/路径) 并基于此检查更新变量 似乎标准os.path.exists无法访问blob存储(或者我对文件路径使用了错误的格式)。任何人都有这样的运气吗?WASB是一个HDFS兼容的文件系统,所以Hadoop和Hadoop内部运行的东西(hive、mapreduce等)都知道如何使用它;Python和
似乎标准os.path.exists无法访问blob存储(或者我对文件路径使用了错误的格式)。任何人都有这样的运气吗?WASB是一个HDFS兼容的文件系统,所以Hadoop和Hadoop内部运行的东西(hive、mapreduce等)都知道如何使用它;Python和其他操作系统则不然
如果您知道HDInsight群集使用的默认存储帐户/容器,则可以使用来检查容器中是否存在blob。应该有关于使用它访问blob的信息。提到的azure sdk for python应该可以完成这项工作,使用这些模块访问blob存储很容易。挑战可能是从集群节点访问非标准python模块。本文:可能是一个起点。如果你使用基于Windows的HDInsight集群,你可能需要上面提到的博客文章。如果您使用的是基于Linux的预览,那么可以使用SSH连接到head节点,然后从那里连接到worker节点(使用SSH),并安装所需的任何内容。