Apache spark spark中的平面文件(orc、csv)是否比增量表更高效
我正在处理大约16个增量表,数据块中大约有100万到300万行。Apache spark spark中的平面文件(orc、csv)是否比增量表更高效,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我正在处理大约16个增量表,数据块中大约有100万到300万行。 因此,当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时,需要花费很长时间。 我主要要做插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试合并替换的增量表 因此,我怀疑delta的优点是什么,为什么不使用平面文件 这是一个基本问题,但我对databricks还是新手,所以任何帮助都很好。Andy,这完全取决于您的需求和期望,但是增量表可以帮助解决许多数据工程难题 增量表的行为类似于事
因此,当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时,需要花费很长时间。
我主要要做插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试合并替换的增量表 因此,我怀疑delta的优点是什么,为什么不使用平面文件
这是一个基本问题,但我对databricks还是新手,所以任何帮助都很好。Andy,这完全取决于您的需求和期望,但是增量表可以帮助解决许多数据工程难题 增量表的行为类似于事务日志,对于许多场景(如时间旅行)非常有用。这使得能够回滚,重现一些实验(读取较旧版本的数据),允许分析数据版本之间的差异(更改) 此外,在处理拼花地板时,我们不必重写完整的数据集,只需写入更新的数据
如果您不需要这些,那么也许您可以忘记增量表,专注于纯性能。如果我不需要这些。平面文件能否提供更好的性能。。因为我不认为我需要旧版本的数据。我的代码花费的时间主要是插入。谢谢你的回复。Andy,Delta表只是拼花地板文件上的额外元数据。首先,你应该尝试处理“简单”的拼花。根据您的需要,您也可以尝试Hive ACID事务(通过ORC)。就个人而言,我永远不会建议您将平面文件作为主要选择。