Machine learning 用于分类的连续测量的特征

Machine learning 用于分类的连续测量的特征,machine-learning,classification,prediction,feature-selection,feature-engineering,Machine Learning,Classification,Prediction,Feature Selection,Feature Engineering,我目前正在做一个小型的机器学习项目。 该任务处理数千名患者的医疗数据。对于每位患者,每隔一小时对同一组生命体征进行12次测量。 这些测量必须在患者进入医院后立即进行,但可以从一些偏移开始。然而,患者将在医院总共停留24小时,因此他们不能晚于入院后11小时开始 现在的任务是为每位患者预测,在剩余的住院期间,10项可能的检查中是否没有、一项或多项,以及预测剩余住院期间某些生命体征的未来平均值。 我有一套培训教材,里面有我应该预测的标签 我的问题主要是关于如何处理特征,我考虑将患者的测量结果转化为一个

我目前正在做一个小型的机器学习项目。 该任务处理数千名患者的医疗数据。对于每位患者,每隔一小时对同一组生命体征进行12次测量。 这些测量必须在患者进入医院后立即进行,但可以从一些偏移开始。然而,患者将在医院总共停留24小时,因此他们不能晚于入院后11小时开始

现在的任务是为每位患者预测,在剩余的住院期间,10项可能的检查中是否没有、一项或多项,以及预测剩余住院期间某些生命体征的未来平均值。 我有一套培训教材,里面有我应该预测的标签

我的问题主要是关于如何处理特征,我考虑将患者的测量结果转化为一个长向量,并将其用作分类器的训练示例。
然而,我不是舒尔,我应该如何将每个测量的时间信息包含到特征中(我应该考虑时间吗?)< /P> < P>如果我理解正确,你要把每个测量的时间信息包含到特征中。我认为有一种方法是制作一个长度为24的空向量,因为患者在医院停留24小时。然后,您可以使用一个热表示,例如,如果测量是在他停留的第12、15和20小时内进行的,则您的时间特征向量在第12、15和20个位置将为1,而所有其他位置都为零。您可以将此时间向量附加到其他特征,并为每个患者创建一个长度=长度(其他向量)+长度(时间向量)的向量。或者您可以使用不同的方法来组合这些功能


如果您认为这种方法对您有意义,请告诉我。谢谢。

谢谢你的建议。我理解你的方法,但是不会让每个患者的特征向量增长得很大吗?每个测量值由14个不同的值组成,因此,如果我们将每个患者的所有测量结果与时间信息一起分组到一个向量中,这将产生一个12*14+24=192个元素的向量。我在ML方面几乎没有实际经验,但这是否可行?或者,我是否应该考虑对每个生命体征采取不同的测量结果的平均值,以保持特征向量小?我认为长度不会是问题,192在ML.仍然是一个很小的长度,你可以使用你提到的那些方法。您可以这样做,并将您的模型的精度与192长度的模型进行比较。您可能会丢失一些信息,但仍然可以尝试。好的,谢谢,我将尝试您的方法。另一个问题:您建议如何操作包含所有测量值作为行的pandas数据框,例如,对于每个患者,有12行,但每个患者的训练标签仅包含1行,因此我必须将12行转换为一行。我在网上读到,迭代一个数据帧的行(为了创建一个新的数据帧)不是一个好主意,通常应该避免。假设df是您的数据帧,那么df_new=df.T将转换您的数据帧。df_new将有12列带有功能,第13列带有标签。因此,您可以使用这个新的数据框架进行学习。这对您有帮助吗?