Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数(1)
该文件是一个2.6Gig的csv文件,有30列,不相信任何列的宽度超过50个字符 我读了这个文件,没有错误 我创建或替换TempView并选择前1000名,无错误 然后从tempView中选择count1 20分钟后,我取消计数1,因为我仍然没有行计数 在5分钟的时候,我可以看到49兆的读数和大约250万条记录,但Spark UI似乎一直停留在这一点上,直到被取消 我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群Dataframe databricks群集上的2G csv文件在20分钟后无法获得计数(1),dataframe,databricks,azure-databricks,Dataframe,Databricks,Azure Databricks,该文件是一个2.6Gig的csv文件,有30列,不相信任何列的宽度超过50个字符 我读了这个文件,没有错误 我创建或替换TempView并选择前1000名,无错误 然后从tempView中选择count1 20分钟后,我取消计数1,因为我仍然没有行计数 在5分钟的时候,我可以看到49兆的读数和大约250万条记录,但Spark UI似乎一直停留在这一点上,直到被取消 我是这个生产级集群中唯一一个拥有8个节点和256G ram的集群 你认为我应该追求什么。如果我至少可以得到一个计数,我可能会觉得在使
你认为我应该追求什么。如果我至少可以得到一个计数,我可能会觉得在使用分区保存到delta之后,我就可以继续了。尝试以下方法: 在注册临时视图之前缓存数据。 在注册临时视图之前重新分区数据。
提供更多信息-在注册临时视图之前如何读取数据。如果是单个CSV文件,还是多个CSV文件?它是压缩的吗?如果是,使用什么压缩