Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数（1）_Dataframe_Databricks_Azure Databricks

Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数（1）

dataframe

Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数（1）,dataframe,databricks,azure-databricks,Dataframe,Databricks,Azure Databricks,该文件是一个2.6Gig的csv文件，有30列，不相信任何列的宽度超过50个字符我读了这个文件，没有错误我创建或替换TempView并选择前1000名，无错误然后从tempView中选择count1 20分钟后，我取消计数1，因为我仍然没有行计数在5分钟的时候，我可以看到49兆的读数和大约250万条记录，但Spark UI似乎一直停留在这一点上，直到被取消我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群你认为我应该追求什么。如果我至少可以得到一个计数，我可能会觉得在使

该文件是一个2.6Gig的csv文件，有30列，不相信任何列的宽度超过50个字符

我读了这个文件，没有错误

我创建或替换TempView并选择前1000名，无错误

然后从tempView中选择count1

20分钟后，我取消计数1，因为我仍然没有行计数

在5分钟的时候，我可以看到49兆的读数和大约250万条记录，但Spark UI似乎一直停留在这一点上，直到被取消

我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群

你认为我应该追求什么。如果我至少可以得到一个计数，我可能会觉得在使用分区保存到delta之后，我就可以继续了。

尝试以下方法：

在注册临时视图之前缓存数据。在注册临时视图之前重新分区数据。

提供更多信息-在注册临时视图之前如何读取数据。如果是单个CSV文件，还是多个CSV文件？它是压缩的吗？如果是，使用什么压缩