Apache spark 将pyspark字符串转换为日期格式

Apache spark 将pyspark字符串转换为日期格式,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,我有一个日期pyspark数据框,其中有一个格式为MM dd yyyy的字符串列,我正在尝试将其转换为日期列 我试过: df.选择to_datedf.STRING_COLUMN.别名'new_date'。显示 我得到一串空值。有人能帮忙吗?从datetime导入datetime 从pyspark.sql.functions导入col、udf 从pyspark.sql.types导入日期类型 创建虚拟数据帧: df1=sqlContext.createDataFrame[11/25/1991,11

我有一个日期pyspark数据框,其中有一个格式为MM dd yyyy的字符串列,我正在尝试将其转换为日期列

我试过:

df.选择to_datedf.STRING_COLUMN.别名'new_date'。显示

我得到一串空值。有人能帮忙吗?

从datetime导入datetime
从pyspark.sql.functions导入col、udf 从pyspark.sql.types导入日期类型 创建虚拟数据帧: df1=sqlContext.createDataFrame[11/25/1991,11/24/1991,11/30/1991, 1391年11月25日,1992年11月24日,1992年11月30日),模式=[“第一”、“第二”、“第三”] 设置用户定义函数: 此函数用于将字符串单元格转换为日期: func=udf lambda x:datetime.strtimex,'%m/%d/%Y',日期类型 df=df1。带列“test”,funcol“first” df.show 打印模式 以下是输出:

+----------+----------+----------+----------+
|     first|    second|     third|      test|
+----------+----------+----------+----------+
|11/25/1991|11/24/1991|11/30/1991|1991-01-25|
|11/25/1391|11/24/1992|11/30/1992|1391-01-17|
+----------+----------+----------+----------+

root
 |-- first: string (nullable = true)
 |-- second: string (nullable = true)
 |-- third: string (nullable = true)
 |-- test: date (nullable = true)
更新日期:2018年1月10日:

对于Spark 2.2+来说,最好的方法可能是使用or函数,这两个函数都支持format参数。从文档中:


>>>从pyspark.sql.functions导入到_时间戳 >>>df=spark.createDataFrame['1997-02-28 10:30:00',]['t'] >>>df.selectto_timestampdf.t,'yyyy-MM-dd HH:MM:ss'。别名'dt'。collect [Rowdt=datetime.datetime1997,2,28,10,30] Spark<2.2的原始答案

有可能吗?要在没有udf的情况下执行此操作,请执行以下操作:


从pyspark.sql.functions导入unix\u时间戳,从\u unixtime df=spark.createDataFrame [11/25/1991,, 11/24/1991,, 11/30/1991,], [“日期”] df2=df.select “date_str”, 从时间戳'date'str','MM/dd/yyy',别名'date' 打印DF2 数据帧[日期:字符串,日期:时间戳] df2.showtruncate=False +-----+----------+ |日期|街|日期| +-----+----------+ |11/25/1991|1991-11-25 00:00:00| |11/24/1991|1991-11-24 00:00:00| |11/30/1991|1991-11-30 00:00:00| +-----+----------+
strtime方法对我不起作用。我使用cast获得了另一种更清洁的解决方案:

from pyspark.sql.types import DateType
spark_df1 = spark_df.withColumn("record_date",spark_df['order_submitted_date'].cast(DateType()))
#below is the result
spark_df1.select('order_submitted_date','record_date').show(10,False)

+---------------------+-----------+
|order_submitted_date |record_date|
+---------------------+-----------+
|2015-08-19 12:54:16.0|2015-08-19 |
|2016-04-14 13:55:50.0|2016-04-14 |
|2013-10-11 18:23:36.0|2013-10-11 |
|2015-08-19 20:18:55.0|2015-08-19 |
|2015-08-20 12:07:40.0|2015-08-20 |
|2013-10-11 21:24:12.0|2013-10-11 |
|2013-10-11 23:29:28.0|2013-10-11 |
|2015-08-20 16:59:35.0|2015-08-20 |
|2015-08-20 17:32:03.0|2015-08-20 |
|2016-04-13 16:56:21.0|2016-04-13 |
试试这个:

df = spark.createDataFrame([('2018-07-27 10:30:00',)], ['Date_col'])
df.select(from_unixtime(unix_timestamp(df.Date_col, 'yyyy-MM-dd HH:mm:ss')).alias('dt_col'))
df.show()
+-------------------+  
|           Date_col|  
+-------------------+  
|2018-07-27 10:30:00|  
+-------------------+  

在接受答案的更新中,您没有看到to_date函数的示例,因此使用它的另一个解决方案是:

from pyspark.sql import functions as F

df = df.withColumn(
            'new_date',
                F.to_date(
                    F.unix_timestamp('STRINGCOLUMN', 'MM-dd-yyyy').cast('timestamp')))

可能没有那么多的答案,所以我想分享我的代码,可以帮助别人

from pyspark.sql import SparkSession
from pyspark.sql.functions import to_date

spark = SparkSession.builder.appName("Python Spark SQL basic example")\
    .config("spark.some.config.option", "some-value").getOrCreate()


df = spark.createDataFrame([('2019-06-22',)], ['t'])
df1 = df.select(to_date(df.t, 'yyyy-MM-dd').alias('dt'))
print df1
print df1.show()
输出

DataFrame[dt: date]
+----------+
|        dt|
+----------+
|2019-06-22|
+----------+
上面要转换为日期的代码如果要转换datetime,请使用to_timestamp。
如果您有任何疑问,请告诉我。

除非您正在使用TimeSeriesRDD插件之一(请参阅Spark 2016大会进行讨论),否则我知道有两个插件,但它们都还在开发中,时间序列的优秀工具不多。因此,如果您的目标是各种类型的groupBy或重采样操作,我发现很少有理由费心将字符串转换为datetime对象。只需在字符串列上执行它们。分析将使用很少或不使用groupBy,而是对病历进行纵向研究。因此,能够操纵日期是很重要的。这里不需要udf的可能副本,但是处理这个问题的内置程序非常糟糕。这也是我现在要做的。为什么测试列中的日期与第一列不匹配?是的,它现在是日期类型,但日期和月份不匹配。是否有原因?测试给出的日期值不正确。这不是正确的答案。任何使用UDF的解决方案都不是答案,仅仅是一种解决方法。我不认为,有很多用例你不能通过结合PSF和.transform本身来完成。这是正确的答案。为此使用udf将破坏您的性能。从pyspark.sql.functions从unix\u unixtime、unix\u timestamp导入注意,您可以在此处找到java日期格式引用:还请注意,带有format参数的to\u date是spark 2.2+。to_date在2.2之前就存在,但格式选项不存在。谢谢,这种方法对我有效!如果有人想将像2008-08-01T14:45:37Z这样的字符串转换为时间戳而不是日期,df=df.withColumnCreationDate,df['CreationDate']。castTimestampType工作得很好。。。Spark 2.2.0我在AWS Glue pyspark的众多产品中尝试了这个选项,效果很好!如果日期已经是可接受格式YYYY-MM-DD,在OP的情况下,日期的MM DD YYYY格式将使用这种方法返回NULL。您可以考虑如何在已经提供和接受的情况下改进您的答案。做一个简单的toSoad不起作用,这是正确的答案。