Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark中的平面文件(orc、csv)是否比增量表更高效_Apache Spark_Pyspark_Apache Spark Sql_Databricks - Fatal编程技术网

Apache spark spark中的平面文件(orc、csv)是否比增量表更高效

Apache spark spark中的平面文件(orc、csv)是否比增量表更高效,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我正在处理大约16个增量表,数据块中大约有100万到300万行。 因此,当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时,需要花费很长时间。 我主要要做插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试合并替换的增量表 因此,我怀疑delta的优点是什么,为什么不使用平面文件 这是一个基本问题,但我对databricks还是新手,所以任何帮助都很好。Andy,这完全取决于您的需求和期望,但是增量表可以帮助解决许多数据工程难题 增量表的行为类似于事

我正在处理大约16个增量表,数据块中大约有100万到300万行。
因此,当我尝试在这些增量表中执行诸如join、delete或insert之类的操作时,需要花费很长时间。
我主要要做插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试合并替换的增量表

因此,我怀疑delta的优点是什么,为什么不使用平面文件


这是一个基本问题,但我对databricks还是新手,所以任何帮助都很好。

Andy,这完全取决于您的需求和期望,但是增量表可以帮助解决许多数据工程难题

增量表的行为类似于事务日志,对于许多场景(如时间旅行)非常有用。这使得能够回滚重现一些实验(读取较旧版本的数据),允许分析数据版本之间的差异(更改)

此外,在处理拼花地板时,我们不必重写完整的数据集,只需写入更新的数据


如果您不需要这些,那么也许您可以忘记增量表,专注于纯性能。

如果我不需要这些。平面文件能否提供更好的性能。。因为我不认为我需要旧版本的数据。我的代码花费的时间主要是插入。谢谢你的回复。Andy,Delta表只是拼花地板文件上的额外元数据。首先,你应该尝试处理“简单”的拼花。根据您的需要,您也可以尝试Hive ACID事务(通过ORC)。就个人而言,我永远不会建议您将平面文件作为主要选择。