Python 根据时间戳创建路由标识符
我有来自远程通信设备的数据,带有驾驶员ID、时间戳和一些与我的示例无关的传感器数据 我想根据这些数据创建一个路线标识符和一个记录计数器,以便为每个驾驶员计算每条路线的统计信息。我们正在Hortonworks HDP 2.2.6.0平台的纱线簇上使用pyspark 1.2.1 我的数据如下所示,它是成对的RDD,这两个元素是关键:Python 根据时间戳创建路由标识符,python,datetime,apache-spark,yarn,pyspark,Python,Datetime,Apache Spark,Yarn,Pyspark,我有来自远程通信设备的数据,带有驾驶员ID、时间戳和一些与我的示例无关的传感器数据 我想根据这些数据创建一个路线标识符和一个记录计数器,以便为每个驾驶员计算每条路线的统计信息。我们正在Hortonworks HDP 2.2.6.0平台的纱线簇上使用pyspark 1.2.1 我的数据如下所示,它是成对的RDD,这两个元素是关键: | driverID | timestamp | | D1 | 1 | | D1 | 2 | |
| driverID | timestamp |
| D1 | 1 |
| D1 | 2 |
| D1 | 6 |
| D1 | 8 |
| D2 | 1 |
| D2 | 3 |
| D2 | 4 |
| D2 | 7 |
我想得到runID和sequenceID列,假设3个时间单位的延迟开始新的运行
| driverID | timestamp | runID | sequenceID
| D1 | 1 | 1 |1
| D1 | 2 | 1 |2
| D1 | 6 | 2 |1
| D1 | 8 | 2 |2
| D2 | 1 | 1 |1
| D2 | 3 | 1 |2
| D2 | 4 | 1 |3
| D2 | 7 | 2 |1
你建议我做什么?这将最终用于TB大小的数据集。驱动程序ID是一个字符串,时间戳实际上是一个datetime对象
谢谢你的帮助