Python 我有12个月的犯罪数据集，超过25万行，我想通过日期和地点预测未来的犯罪_Python_Dataframe_Machine Learning_Data Science_Sklearn Pandas

Python 我有12个月的犯罪数据集，超过25万行，我想通过日期和地点预测未来的犯罪

python dataframe machine-learning

Python 我有12个月的犯罪数据集，超过25万行，我想通过日期和地点预测未来的犯罪,python,dataframe,machine-learning,data-science,sklearn-pandas,Python,Dataframe,Machine Learning,Data Science,Sklearn Pandas,我有这个250k的数据集，具有这些特性 date_time FullAddress call_type priority lat long 0 6/14/17 21:54 10 14TH ST\, San Diego\, CA 1151 2.0 32.705449 -117.151870 1 3/29/17 22:24 10 14TH ST\, San Diego\, CA 1016 2.0 32.705

我有这个250k的数据集，具有这些特性

    date_time       FullAddress             call_type priority   lat       long
0   6/14/17 21:54   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
1   3/29/17 22:24   10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
2   6/3/17 18:04    10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
3   3/17/17 10:57   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
4   3/3/17 23:45    10 15TH ST\, San Diego\, CA 911P    2.0 32.705722   -117.15035

日期和时间、完整地址、lat和long、通话类型以及犯罪的严重程度。我想预测未来犯罪发生的时间或再次发生的地点。我如何做到这一点，我会使用回归还是分类？我已经预测了优先级，但如何预测它将发生的时间或位置

我预测了优先权，但实际上没有给我任何东西。我想预测时间和地点，或者两者之一

这是我用来预测优先级的代码

from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
my_RandomForest = RandomForestClassifier(n_estimators=100, random_state=0)

my_RandomForest.fit(X_train, y_train)
y_predict_fr = my_RandomForest.predict(X_test)
from sklearn.metrics import accuracy_score
print(y_predict_fr)
accuracy_fr = accuracy_score(y_test, y_predict_fr)
print(accuracy_fr)

[4. 3. 2. ... 3. 1. 2.]
0.95100761598545

对于位置，您需要为分类器创建一个分类y变量，可以通过将lat/long特征转换为邮政编码，并为每个邮政编码分配一个整数（这相当于“优先级”）。

时间-是一个序列，为了预测序列，您需要使用RNN（）（例如LSTM）。关于细节的好书：

如果只想预测给定时间、类型和优先级的位置（无时间），可以删除时间列，或者最好从该列中提取新特征，例如星期几，并使用回归模型（输出上有2个单位）。预测位置坐标是一个回归问题，因为坐标是一个连续变量

如果你想预测两者，我想，也许你应该用rnn预测时间，然后用回归模型预测位置

取决于上下文，如果您通过城市区域表示位置特征，可能会更有用

希望有帮助

这不是电视连续剧吗？等等什么？你是什么意思？这是一部电视连续剧的基础（兴趣人物，2011-2016）。。。精彩的表演！更可能的是，您最终直接拟合了一个参数联合分布p（time，lat，long），该分布对犯罪数量进行建模，并在位置和时间步长的网格上获得预期的犯罪数量。但这是否能够预测这些位置未来的犯罪？您需要将y值向前移动一个时间点（使用df[col].shift（））使一个犯罪的特征（X）与下一个犯罪（目标y）的位置对齐。然后，分类器将试图根据最近的特征预测下一次犯罪的位置。您可能还应该包括一些功能，这些功能不仅可以回顾最近的犯罪（例如，提供过去一周的犯罪数量的专栏）