Python 我有12个月的犯罪数据集,超过25万行,我想通过日期和地点预测未来的犯罪

Python 我有12个月的犯罪数据集,超过25万行,我想通过日期和地点预测未来的犯罪,python,dataframe,machine-learning,data-science,sklearn-pandas,Python,Dataframe,Machine Learning,Data Science,Sklearn Pandas,我有这个250k的数据集,具有这些特性 date_time FullAddress call_type priority lat long 0 6/14/17 21:54 10 14TH ST\, San Diego\, CA 1151 2.0 32.705449 -117.151870 1 3/29/17 22:24 10 14TH ST\, San Diego\, CA 1016 2.0 32.705

我有这个250k的数据集,具有这些特性

    date_time       FullAddress             call_type priority   lat       long
0   6/14/17 21:54   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
1   3/29/17 22:24   10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
2   6/3/17 18:04    10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
3   3/17/17 10:57   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
4   3/3/17 23:45    10 15TH ST\, San Diego\, CA 911P    2.0 32.705722   -117.15035
日期和时间、完整地址、lat和long、通话类型以及犯罪的严重程度。 我想预测未来犯罪发生的时间或再次发生的地点。我如何做到这一点,我会使用回归还是分类?我已经预测了优先级,但如何预测它将发生的时间或位置

我预测了优先权,但实际上没有给我任何东西。我想预测时间和地点,或者两者之一

这是我用来预测优先级的代码

from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
my_RandomForest = RandomForestClassifier(n_estimators=100, random_state=0)

my_RandomForest.fit(X_train, y_train)
y_predict_fr = my_RandomForest.predict(X_test)
from sklearn.metrics import accuracy_score
print(y_predict_fr)
accuracy_fr = accuracy_score(y_test, y_predict_fr)
print(accuracy_fr)

[4. 3. 2. ... 3. 1. 2.]
0.95100761598545

对于位置,您需要为分类器创建一个分类y变量,可以通过将lat/long特征转换为邮政编码,并为每个邮政编码分配一个整数(这相当于“优先级”)。

时间-是一个序列,为了预测序列,您需要使用RNN()(例如LSTM)。关于细节的好书:

如果只想预测给定时间、类型和优先级的位置(无时间),可以删除时间列,或者最好从该列中提取新特征,例如星期几,并使用回归模型(输出上有2个单位)。预测位置坐标是一个回归问题,因为坐标是一个连续变量

如果你想预测两者,我想,也许你应该用rnn预测时间,然后用回归模型预测位置

取决于上下文,如果您通过城市区域表示位置特征,可能会更有用


希望有帮助

这不是电视连续剧吗?等等什么?你是什么意思?这是一部电视连续剧的基础(兴趣人物,2011-2016)。。。精彩的表演!更可能的是,您最终直接拟合了一个参数联合分布p(time,lat,long),该分布对犯罪数量进行建模,并在位置和时间步长的网格上获得预期的犯罪数量。但这是否能够预测这些位置未来的犯罪?您需要将y值向前移动一个时间点(使用df[col].shift())使一个犯罪的特征(X)与下一个犯罪(目标y)的位置对齐。然后,分类器将试图根据最近的特征预测下一次犯罪的位置。您可能还应该包括一些功能,这些功能不仅可以回顾最近的犯罪(例如,提供过去一周的犯罪数量的专栏)