Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数(1)

Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数(1),dataframe,databricks,azure-databricks,Dataframe,Databricks,Azure Databricks,该文件是一个2.6Gig的csv文件,有30列,不相信任何列的宽度超过50个字符 我读了这个文件,没有错误 我创建或替换TempView并选择前1000名,无错误 然后从tempView中选择count1 20分钟后,我取消计数1,因为我仍然没有行计数 在5分钟的时候,我可以看到49兆的读数和大约250万条记录,但Spark UI似乎一直停留在这一点上,直到被取消 我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群 你认为我应该追求什么。如果我至少可以得到一个计数,我可能会觉得在使

该文件是一个2.6Gig的csv文件,有30列,不相信任何列的宽度超过50个字符

我读了这个文件,没有错误

我创建或替换TempView并选择前1000名,无错误

然后从tempView中选择count1

20分钟后,我取消计数1,因为我仍然没有行计数

在5分钟的时候,我可以看到49兆的读数和大约250万条记录,但Spark UI似乎一直停留在这一点上,直到被取消

我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群


你认为我应该追求什么。如果我至少可以得到一个计数,我可能会觉得在使用分区保存到delta之后,我就可以继续了。

尝试以下方法:

在注册临时视图之前缓存数据。 在注册临时视图之前重新分区数据。
提供更多信息-在注册临时视图之前如何读取数据。如果是单个CSV文件,还是多个CSV文件?它是压缩的吗?如果是,使用什么压缩