Python Azure Databricks笔记本中缺少read_拼花地板功能

Python Azure Databricks笔记本中缺少read_拼花地板功能,python,pandas,azure,databricks,azure-databricks,Python,Pandas,Azure,Databricks,Azure Databricks,当我使用pandas读取databricks笔记本中的拼花地板文件时,会发生以下错误:AttributeError:模块“pandas”没有属性“read_parquet”。尝试在我的群集上安装最新版本的pandas,但仍然没有更改。有没有关于如何修复它的想法?要读取Azure Databricks笔记本中的拼花格式文件,您应该直接使用该类将数据加载为PySpark数据帧,而不是使用pandas 下面是代码示例 df = spark.read.format("parquet").load('&l

当我使用pandas读取databricks笔记本中的拼花地板文件时,会发生以下错误:AttributeError:模块“pandas”没有属性“read_parquet”。尝试在我的群集上安装最新版本的pandas,但仍然没有更改。有没有关于如何修复它的想法?

要读取Azure Databricks笔记本中的拼花格式文件,您应该直接使用该类将数据加载为PySpark数据帧,而不是使用
pandas

下面是代码示例

df = spark.read.format("parquet").load('<the path of your parquet file>')

更新:我通过下面的代码检查了默认Azure databricks笔记本中的
pandas
版本,发现它是
0.19.2

因此,您必须将
pandas
版本升级到大于等于
0.21.x
的版本,这是第一个支持
read\u parquet
功能的版本,如下图所示

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

要在您的databricks集群中升级
pandas
,请按照databricks官方文档
databricks Utilities
的部分安装不同版本的
pandas
软件包,如下面的代码和图所示

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

然后,您可以使用pandas官方文档中所述的函数“read_parquet”


目前我使用pyspark,但使用pyspark接收数据然后将数据转换到pandas数据帧的问题是它需要太长的时间,比如100万行超过30分钟。我只是想用pandas测试一下,直接阅读拼花地板,看看这种方法是否能减少时间。@zzzk我已经更新了我的帖子。如果有帮助,请帮我把它标记为答案。你知道如何卸载熊猫库吗?如图所示,在更新库之后,出现了一个关于多个numpy库的问题,导致我的集群无法启动。
dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()