Python 3.x 在Pyspark中计算完整文件(文件中的所有数据)的哈希值/校验和

Python 3.x 在Pyspark中计算完整文件(文件中的所有数据)的哈希值/校验和,python-3.x,apache-spark,pyspark,apache-spark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,我期待验证文件,如果该文件的内容是完全重复的wrt其他文件(不同的名称在同一个文件夹)。我已经用下面的pyspark代码阅读了这些文件 for file in os.listdir(fileDirectory): file_read = spark.read.csv(fileDirectory + '/' + file) 现在,我想计算整个文件的单值校验和。请告知

我期待验证文件,如果该文件的内容是完全重复的wrt其他文件(不同的名称在同一个文件夹)。我已经用下面的pyspark代码阅读了这些文件

for file in os.listdir(fileDirectory):
    file_read = spark.read.csv(fileDirectory + '/' + file)
现在,我想计算整个文件的单值校验和。请告知