Pyspark检查hdfs文件夹修改日期

Pyspark检查hdfs文件夹修改日期,pyspark,hdfs,Pyspark,Hdfs,我是pyspark的新手。想知道pyspark是否有一些函数可以获取HDFS折叠修改日期 例如在HDFS中: 在Pypark中: def get_user_folder_update_date(): magic() return update_time print get_user_folder_update_date() 2017-12-20 您可以使用文件系统API获取HDFS文件或目录的修改时间,然后使用python时间格式化函数获取预期格式的日期。例如: impor

我是pyspark的新手。想知道pyspark是否有一些函数可以获取HDFS折叠修改日期

例如在HDFS中:

在Pypark中:

def get_user_folder_update_date():
    magic()
    return update_time

print get_user_folder_update_date()
2017-12-20

您可以使用文件系统API获取HDFS文件或目录的修改时间,然后使用python时间格式化函数获取预期格式的日期。例如:

import time
path = lambda p: spark._jvm.org.apache.hadoop.fs.Path(p)
fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration())

time_ts = fs.getFileStatus(path('/tmp')).getModificationTime()
print(time.strftime("%Y-%m-%d", time.localtime(time_ts / 1000))) 

您可以使用文件系统API获取HDFS文件或目录的修改时间,然后使用python时间格式化函数获取预期格式的日期。例如:

import time
path = lambda p: spark._jvm.org.apache.hadoop.fs.Path(p)
fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration())

time_ts = fs.getFileStatus(path('/tmp')).getModificationTime()
print(time.strftime("%Y-%m-%d", time.localtime(time_ts / 1000)))