Apache spark 将pyspark字符串转换为日期格式_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Sql

Apache spark 将pyspark字符串转换为日期格式

apache-spark pyspark

Apache spark 将pyspark字符串转换为日期格式,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,我有一个日期pyspark数据框，其中有一个格式为MM dd yyyy的字符串列，我正在尝试将其转换为日期列我试过： df.选择to_datedf.STRING_COLUMN.别名'new_date'。显示我得到一串空值。有人能帮忙吗？从datetime导入datetime 从pyspark.sql.functions导入col、udf 从pyspark.sql.types导入日期类型创建虚拟数据帧： df1=sqlContext.createDataFrame[11/25/1991,11

我有一个日期pyspark数据框，其中有一个格式为MM dd yyyy的字符串列，我正在尝试将其转换为日期列

我试过：

df.选择to_datedf.STRING_COLUMN.别名'new_date'。显示

我得到一串空值。有人能帮忙吗？

从datetime导入datetime

从pyspark.sql.functions导入col、udf 从pyspark.sql.types导入日期类型创建虚拟数据帧： df1=sqlContext.createDataFrame[11/25/1991,11/24/1991,11/30/1991， 1391年11月25日，1992年11月24日，1992年11月30日），模式=[“第一”、“第二”、“第三”] 设置用户定义函数：此函数用于将字符串单元格转换为日期： func=udf lambda x:datetime.strtimex，'%m/%d/%Y'，日期类型 df=df1。带列“test”，funcol“first” df.show 打印模式以下是输出：

+----------+----------+----------+----------+
|     first|    second|     third|      test|
+----------+----------+----------+----------+
|11/25/1991|11/24/1991|11/30/1991|1991-01-25|
|11/25/1391|11/24/1992|11/30/1992|1391-01-17|
+----------+----------+----------+----------+

root
 |-- first: string (nullable = true)
 |-- second: string (nullable = true)
 |-- third: string (nullable = true)
 |-- test: date (nullable = true)

更新日期：2018年1月10日：

对于Spark 2.2+来说，最好的方法可能是使用or函数，这两个函数都支持format参数。从文档中：

>>>从pyspark.sql.functions导入到_时间戳 >>>df=spark.createDataFrame['1997-02-28 10:30:00'，]['t'] >>>df.selectto_timestampdf.t，'yyyy-MM-dd HH:MM:ss'。别名'dt'。collect [Rowdt=datetime.datetime1997,2,28,10,30] Spark<2.2的原始答案

有可能吗？要在没有udf的情况下执行此操作，请执行以下操作：

从pyspark.sql.functions导入unix\u时间戳，从\u unixtime df=spark.createDataFrame [11/25/1991,, 11/24/1991,, 11/30/1991,], [“日期”] df2=df.select “date_str”，从时间戳'date'str'，'MM/dd/yyy'，别名'date' 打印DF2 数据帧[日期：字符串，日期：时间戳] df2.showtruncate=False +-----+----------+ |日期|街|日期| +-----+----------+ |11/25/1991|1991-11-25 00:00:00| |11/24/1991|1991-11-24 00:00:00| |11/30/1991|1991-11-30 00:00:00| +-----+----------+

strtime方法对我不起作用。我使用cast获得了另一种更清洁的解决方案：

from pyspark.sql.types import DateType
spark_df1 = spark_df.withColumn("record_date",spark_df['order_submitted_date'].cast(DateType()))
#below is the result
spark_df1.select('order_submitted_date','record_date').show(10,False)

+---------------------+-----------+
|order_submitted_date |record_date|
+---------------------+-----------+
|2015-08-19 12:54:16.0|2015-08-19 |
|2016-04-14 13:55:50.0|2016-04-14 |
|2013-10-11 18:23:36.0|2013-10-11 |
|2015-08-19 20:18:55.0|2015-08-19 |
|2015-08-20 12:07:40.0|2015-08-20 |
|2013-10-11 21:24:12.0|2013-10-11 |
|2013-10-11 23:29:28.0|2013-10-11 |
|2015-08-20 16:59:35.0|2015-08-20 |
|2015-08-20 17:32:03.0|2015-08-20 |
|2016-04-13 16:56:21.0|2016-04-13 |

试试这个：

df = spark.createDataFrame([('2018-07-27 10:30:00',)], ['Date_col'])
df.select(from_unixtime(unix_timestamp(df.Date_col, 'yyyy-MM-dd HH:mm:ss')).alias('dt_col'))
df.show()
+-------------------+  
|           Date_col|  
+-------------------+  
|2018-07-27 10:30:00|  
+-------------------+

在接受答案的更新中，您没有看到to_date函数的示例，因此使用它的另一个解决方案是：

from pyspark.sql import functions as F

df = df.withColumn(
            'new_date',
                F.to_date(
                    F.unix_timestamp('STRINGCOLUMN', 'MM-dd-yyyy').cast('timestamp')))

可能没有那么多的答案，所以我想分享我的代码，可以帮助别人

from pyspark.sql import SparkSession
from pyspark.sql.functions import to_date

spark = SparkSession.builder.appName("Python Spark SQL basic example")\
    .config("spark.some.config.option", "some-value").getOrCreate()


df = spark.createDataFrame([('2019-06-22',)], ['t'])
df1 = df.select(to_date(df.t, 'yyyy-MM-dd').alias('dt'))
print df1
print df1.show()

输出

DataFrame[dt: date]
+----------+
|        dt|
+----------+
|2019-06-22|
+----------+

上面要转换为日期的代码如果要转换datetime，请使用to_timestamp。

如果您有任何疑问，请告诉我。

除非您正在使用TimeSeriesRDD插件之一（请参阅Spark 2016大会进行讨论），否则我知道有两个插件，但它们都还在开发中，时间序列的优秀工具不多。因此，如果您的目标是各种类型的groupBy或重采样操作，我发现很少有理由费心将字符串转换为datetime对象。只需在字符串列上执行它们。分析将使用很少或不使用groupBy，而是对病历进行纵向研究。因此，能够操纵日期是很重要的。这里不需要udf的可能副本，但是处理这个问题的内置程序非常糟糕。这也是我现在要做的。为什么测试列中的日期与第一列不匹配？是的，它现在是日期类型，但日期和月份不匹配。是否有原因？测试给出的日期值不正确。这不是正确的答案。任何使用UDF的解决方案都不是答案，仅仅是一种解决方法。我不认为，有很多用例你不能通过结合PSF和.transform本身来完成。这是正确的答案。为此使用udf将破坏您的性能。从pyspark.sql.functions从unix\u unixtime、unix\u timestamp导入注意，您可以在此处找到java日期格式引用：还请注意，带有format参数的to\u date是spark 2.2+。to_date在2.2之前就存在，但格式选项不存在。谢谢，这种方法对我有效！如果有人想将像2008-08-01T14:45:37Z这样的字符串转换为时间戳而不是日期，df=df.withColumnCreationDate，df['CreationDate']。castTimestampType工作得很好。。。Spark 2.2.0我在AWS Glue pyspark的众多产品中尝试了这个选项，效果很好！如果日期已经是可接受格式YYYY-MM-DD，在OP的情况下，日期的MM DD YYYY格式将使用这种方法返回NULL。您可以考虑如何在已经提供和接受的情况下改进您的答案。做一个简单的toSoad不起作用，这是正确的答案。