Machine learning Weka ARFF如何处理每个数据项可以有超过1个值的特性/属性

Machine learning Weka ARFF如何处理每个数据项可以有超过1个值的特性/属性,machine-learning,weka,arff,Machine Learning,Weka,Arff,对于推荐引擎,我正在尝试将我的电影数据转换为arff格式,尽管arff格式对我来说很清楚,但我不确定解决以下问题的最佳方法是什么 我的数据集将采用以下或类似格式,其中评级是预测的分类变量: 为每个用户提供以下列表: 电影ID电影名称发行年份类型演员导演编剧运行时评级 我这里的问题是,功能类型、演员、作者可以有一个或多个条目,而weka arff只允许每个属性有一个值。解决这个问题的一个办法是: 具有genre0、genre1、genre2等属性。如果一部电影只有一种类型,则保留一些空白。我看到的

对于推荐引擎,我正在尝试将我的电影数据转换为arff格式,尽管arff格式对我来说很清楚,但我不确定解决以下问题的最佳方法是什么

我的数据集将采用以下或类似格式,其中评级是预测的分类变量:

为每个用户提供以下列表: 电影ID电影名称发行年份类型演员导演编剧运行时评级

我这里的问题是,功能类型、演员、作者可以有一个或多个条目,而weka arff只允许每个属性有一个值。解决这个问题的一个办法是:

具有genre0、genre1、genre2等属性。如果一部电影只有一种类型,则保留一些空白。我看到的问题是,这对于类型来说非常有效,但这是否意味着对于演员来说,例如,我必须在属性声明中包含所有演员

@属性actor1{all actors} @属性actor2{all actors} @属性actor3{all actors}

因为它们都是特定功能的可能值。这种方法对我来说是最有意义的,但因为有成千上万的演员、导演和作家,这将是一个相当大的问题


有没有更好、更有效的方法可以做到这一点?

我不知道有什么方法可以解决这个问题,但一些预处理可能有助于减少属性声明的预期大小。例如:

{'cruise':1,'smith':2}