使用PySpark从azure blob存储读取csv文件_Azure_Apache Spark_Pyspark_Azure Storage_Azure Hdinsight

使用PySpark从azure blob存储读取csv文件

azure apache-spark pyspark

使用PySpark从azure blob存储读取csv文件,azure,apache-spark,pyspark,azure-storage,azure-hdinsight,Azure,Apache Spark,Pyspark,Azure Storage,Azure Hdinsight,我正在尝试使用Microsoft Azure上的PySpark HDInsight群集执行一个机器学习项目。要在我的群集a上操作，请使用Jupyter笔记本。此外，我的数据（csv文件）存储在Azure Blob存储中根据文档，我的文件路径的语法为： path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv' 但是，当我尝试使用以下命令读取csv文件时： csv

我正在尝试使用Microsoft Azure上的PySpark HDInsight群集执行一个机器学习项目。要在我的群集a上操作，请使用Jupyter笔记本。此外，我的数据（csv文件）存储在Azure Blob存储中

根据文档，我的文件路径的语法为：

path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

但是，当我尝试使用以下命令读取csv文件时：

csvFile = spark.read.csv(path, header=True, inferSchema=True)

我得到以下错误：

'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

以下是笔记本中的错误截图：

关于如何解决这个问题有什么想法吗？

它是（未加密的）：

或（加密）：

不是

它是wasb://或wasb://。wasbs是WASBT的安全版本非常感谢！这解决了问题！

wasb://...

wasbs://...

wasb[s]://...