Machine learning 热门项目建议-时间敏感数据-数据挖掘

Machine learning 热门项目建议-时间敏感数据-数据挖掘,machine-learning,data-mining,time-series,classification,prediction,Machine Learning,Data Mining,Time Series,Classification,Prediction,我是数据挖掘领域的新手。我正在研究一个非常有趣的数据挖掘问题。数据说明如下: 数据是时间敏感的。项目属性取决于时间因素及其类标签。我将每周数据分组为训练或测试记录的一个实例。每周,某些项目属性可能会随着其流行程度(即类别标签)而改变 一些样本数据如下: IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,

我是数据挖掘领域的新手。我正在研究一个非常有趣的数据挖掘问题。数据说明如下:

数据是时间敏感的。项目属性取决于时间因素及其类标签。我将每周数据分组为训练或测试记录的一个实例。每周,某些项目属性可能会随着其流行程度(即类别标签)而改变

一些样本数据如下:

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1
我的研究顾问建议使用朴素贝叶斯算法,它可以适应随时间变化的动态数据

我使用2000-2004年的数据作为培训,2005年作为测试。若我在项目数据集中包含“周-年”属性,那个么它将导致朴素贝叶斯中的概率为0。按时间顺序组织数据后,是否可以从数据集中忽略此属性


此外,当我阅读新的测试用例时,如何调整我的模型?由于新的测试用例可能会导致类标签的更改?

您能否对您的方法提供更多的了解?例如,您使用的是R、SPSS、Python、SQLServer2008R2还是RapidMiner5.2?如果你能包含一小部分数据(3-4行数据段),这将有助于人们解决这个问题


要了解您所关注的内容,一种直接的方法是使用随机林/决策树和K-均值聚类来确定数据中的公共分离点。你是否已经开始快速浏览数据的直方图、平均值、,和异常值?

这个问题可能更适合or 0_1600001612000,1,9-00,0,0,0,0,0,0
0_160000482001,22,19-02,1,0,0,0,11,3,0,0
0_1600001612000,5,13-00,0,0,0,0,0,0,0,0,0,1
0_1600001612000,6,14-00,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,IsBestActor,IsBestActor,NumberOfNaminations,NumberOfAwards,…,Labeli如果您可以看看如何将代码加载到注释中,那么您的原始数据转储会更清晰、更容易理解。通常,您会编辑您的问题,然后通过在问题正文中添加四个空格来缩进代码。