Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 根据时间戳创建路由标识符_Python_Datetime_Apache Spark_Yarn_Pyspark - Fatal编程技术网

Python 根据时间戳创建路由标识符

Python 根据时间戳创建路由标识符,python,datetime,apache-spark,yarn,pyspark,Python,Datetime,Apache Spark,Yarn,Pyspark,我有来自远程通信设备的数据,带有驾驶员ID、时间戳和一些与我的示例无关的传感器数据 我想根据这些数据创建一个路线标识符和一个记录计数器,以便为每个驾驶员计算每条路线的统计信息。我们正在Hortonworks HDP 2.2.6.0平台的纱线簇上使用pyspark 1.2.1 我的数据如下所示,它是成对的RDD,这两个元素是关键: | driverID | timestamp | | D1 | 1 | | D1 | 2 | |

我有来自远程通信设备的数据,带有驾驶员ID、时间戳和一些与我的示例无关的传感器数据

我想根据这些数据创建一个路线标识符和一个记录计数器,以便为每个驾驶员计算每条路线的统计信息。我们正在Hortonworks HDP 2.2.6.0平台的纱线簇上使用pyspark 1.2.1

我的数据如下所示,它是成对的RDD,这两个元素是关键:

| driverID | timestamp |  
| D1        | 1         |  
| D1        | 2         |  
| D1        | 6         |  
| D1        | 8         |  
| D2        | 1         |  
| D2        | 3         |  
| D2        | 4         |  
| D2        | 7         |  
我想得到runID和sequenceID列,假设3个时间单位的延迟开始新的运行

| driverID | timestamp | runID | sequenceID  
| D1        | 1         | 1     |1  
| D1        | 2         | 1     |2  
| D1        | 6         | 2     |1  
| D1        | 8         | 2     |2  
| D2        | 1         | 1     |1  
| D2        | 3         | 1     |2  
| D2        | 4         | 1     |3  
| D2        | 7         | 2     |1  
你建议我做什么?这将最终用于TB大小的数据集。驱动程序ID是一个字符串,时间戳实际上是一个datetime对象

谢谢你的帮助