Apache spark spark中的平面文件（orc、csv）是否比增量表更高效_Apache Spark_Pyspark_Apache Spark Sql_Databricks

Apache spark spark中的平面文件（orc、csv）是否比增量表更高效

apache-spark pyspark

Apache spark spark中的平面文件（orc、csv）是否比增量表更高效,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我正在处理大约16个增量表，数据块中大约有100万到300万行。因此，当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时，需要花费很长时间。我主要要做插入和删除操作。所以我应该使用平面文件而不是增量表。或者我应该尝试合并替换的增量表因此，我怀疑delta的优点是什么，为什么不使用平面文件这是一个基本问题，但我对databricks还是新手，所以任何帮助都很好。Andy，这完全取决于您的需求和期望，但是增量表可以帮助解决许多数据工程难题增量表的行为类似于事

我正在处理大约16个增量表，数据块中大约有100万到300万行。
因此，当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时，需要花费很长时间。
我主要要做插入和删除操作。所以我应该使用平面文件而不是增量表。或者我应该尝试合并替换的增量表

因此，我怀疑delta的优点是什么，为什么不使用平面文件

这是一个基本问题，但我对databricks还是新手，所以任何帮助都很好。

Andy，这完全取决于您的需求和期望，但是增量表可以帮助解决许多数据工程难题

增量表的行为类似于事务日志，对于许多场景（如时间旅行）非常有用。这使得能够回滚，重现一些实验（读取较旧版本的数据），允许分析数据版本之间的差异（更改）
此外，在处理拼花地板时，我们不必重写完整的数据集，只需写入更新的数据

如果您不需要这些，那么也许您可以忘记增量表，专注于纯性能。
如果我不需要这些。平面文件能否提供更好的性能。。因为我不认为我需要旧版本的数据。我的代码花费的时间主要是插入。谢谢你的回复。Andy，Delta表只是拼花地板文件上的额外元数据。首先，你应该尝试处理“简单”的拼花。根据您的需要，您也可以尝试Hive ACID事务（通过ORC）。就个人而言，我永远不会建议您将平面文件作为主要选择。