Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/visual-studio-code/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用包含特定地理位置的用户登录时间戳的文件对y变量进行日志转换?_Python_Pandas - Fatal编程技术网

Python 如何使用包含特定地理位置的用户登录时间戳的文件对y变量进行日志转换?

Python 如何使用包含特定地理位置的用户登录时间戳的文件对y变量进行日志转换?,python,pandas,Python,Pandas,如果我使用data.head()的话,我有一个带有时间戳的大数据文件 我需要将这些数据聚合成10分钟的时间间隔;我试图对数据进行日志转换,但我不知道如何最好地进行转换?设置时间序列预测?我是否应该在数据框df[“value”]=1中创建一个新列 我打算每隔15分钟做一次 df['Value'] = 1 # Resample print(df.set_index('login_time').resample('10Min').sum()) 但我不知道这是否正确,然后我将如何进行日志转换?我正在

如果我使用data.head()的话,我有一个带有时间戳的大数据文件

我需要将这些数据聚合成10分钟的时间间隔;我试图对数据进行日志转换,但我不知道如何最好地进行转换?设置时间序列预测?我是否应该在数据框df[“value”]=1中创建一个新列

我打算每隔15分钟做一次

df['Value'] = 1

# Resample
print(df.set_index('login_time').resample('10Min').sum())
但我不知道这是否正确,然后我将如何进行日志转换?我正在尝试将此设置为最佳,以便我可以执行prophet

您似乎可以使用:

print(df.set_index('login_time').resample('10Min').size().reset_index(name='COUNT'))
           login_time  COUNT
0 2016-01-01 00:10:00      3
1 2016-01-01 00:20:00      2
如有需要:


你试过
np.log
吗?我不知道该拿什么,因为我只有一个column@juanpa.arrivillaga这就是我想做的,但我不知道y应该是什么,我没有因变量,因为我只有一列,所以,你似乎需要弄清楚你想做什么。StackOverflow用于编程问题。您可能需要尝试交叉验证。这不是有效的R代码(删除了它的标记和另外两个不适用的标记)。如果是R,您可能会使用
log(table(cut(data$login\u time,breaks=“10 min”))
,但是在10分钟的时间段内对可能为零的项目进行日志转换可能会产生错误。但是计数列是一个问题,因为我正在尝试进行日志转换,并且使用计数,日志概率计算为log(0),也就是负无穷大。嗯,我不知道你需要什么。因为id函数可以应用于某些数值。所以可以使用
打印(df.set_index('login_time')。重采样('10Min')。size().apply(np.log))
,但仍然不确定是否需要它。这是我得到的错误,运行时错误:拒绝初始值:日志概率计算为日志(0),即负无穷大。斯坦无法从这个初始值开始采样。所以我假设我需要改变…我想我必须改变参数?我该怎么做?
print(df.set_index('login_time').resample('10Min').size().reset_index(name='COUNT'))
           login_time  COUNT
0 2016-01-01 00:10:00      3
1 2016-01-01 00:20:00      2
print(df.set_index('login_time').resample('10Min').size().apply(np.log))
login_time
2016-01-01 00:10:00    1.098612
2016-01-01 00:20:00    0.693147
Freq: 10T, dtype: float64