Python Azure Databricks笔记本中缺少read_拼花地板功能_Python_Pandas_Azure_Databricks_Azure Databricks

Python Azure Databricks笔记本中缺少read_拼花地板功能

python pandas azure

Python Azure Databricks笔记本中缺少read_拼花地板功能,python,pandas,azure,databricks,azure-databricks,Python,Pandas,Azure,Databricks,Azure Databricks,当我使用pandas读取databricks笔记本中的拼花地板文件时，会发生以下错误：AttributeError:模块“pandas”没有属性“read_parquet”。尝试在我的群集上安装最新版本的pandas，但仍然没有更改。有没有关于如何修复它的想法？要读取Azure Databricks笔记本中的拼花格式文件，您应该直接使用该类将数据加载为PySpark数据帧，而不是使用pandas 下面是代码示例 df = spark.read.format("parquet").load('&l

当我使用pandas读取databricks笔记本中的拼花地板文件时，会发生以下错误：AttributeError:模块“pandas”没有属性“read_parquet”。尝试在我的群集上安装最新版本的pandas，但仍然没有更改。有没有关于如何修复它的想法？

要读取Azure Databricks笔记本中的拼花格式文件，您应该直接使用该类将数据加载为PySpark数据帧，而不是使用

pandas

下面是代码示例

df = spark.read.format("parquet").load('<the path of your parquet file>')

更新：我通过下面的代码检查了默认Azure databricks笔记本中的

pandas

版本，发现它是

0.19.2

因此，您必须将

pandas

版本升级到大于等于

0.21.x

的版本，这是第一个支持

read\u parquet

功能的版本，如下图所示

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

要在您的databricks集群中升级

pandas

，请按照databricks官方文档

databricks Utilities

的部分安装不同版本的

pandas

软件包，如下面的代码和图所示

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()

然后，您可以使用pandas官方文档中所述的函数“read_parquet”

目前我使用pyspark，但使用pyspark接收数据然后将数据转换到pandas数据帧的问题是它需要太长的时间，比如100万行超过30分钟。我只是想用pandas测试一下，直接阅读拼花地板，看看这种方法是否能减少时间。@zzzk我已经更新了我的帖子。如果有帮助，请帮我把它标记为答案。你知道如何卸载熊猫库吗？如图所示，在更新库之后，出现了一个关于多个numpy库的问题，导致我的集群无法启动。

dbutils.library.installPyPI("pandas", version="0.24.2")
dbutils.library.restartPython()