Machine learning 使用rapidminer处理一对多分类

Machine learning 使用rapidminer处理一对多分类,machine-learning,classification,data-mining,rapidminer,Machine Learning,Classification,Data Mining,Rapidminer,我对这个地区比较陌生,我正在尝试使用Rapidminer解决一个分类问题。我得到了一个访问医生的数据集,我必须检测再入院病例,但由于它最初位于一个表中,具有某种一对多的关系,因此对于每种不同的处方药物,我有几行与同一次访问相关的数据。 例如: 不幸的是,给出的格式不在我的掌握之中,因此我必须使用它。我想知道是否有任何标准的解决方案(可能包含在Rapidminer中)来解决这样的问题 我能想到的唯一方法是创建一个包含访问的新表,将每个可能的药物添加为一个新功能,然后指出它是否是处方药,但我不满意它

我对这个地区比较陌生,我正在尝试使用Rapidminer解决一个分类问题。我得到了一个访问医生的数据集,我必须检测再入院病例,但由于它最初位于一个表中,具有某种一对多的关系,因此对于每种不同的处方药物,我有几行与同一次访问相关的数据。
例如:

不幸的是,给出的格式不在我的掌握之中,因此我必须使用它。我想知道是否有任何标准的解决方案(可能包含在Rapidminer中)来解决这样的问题

我能想到的唯一方法是创建一个包含访问的新表,将每个可能的药物添加为一个新功能,然后指出它是否是处方药,但我不满意它,因为它将是一个具有空字段的功能(518种不同的药物)的数量高得离谱。
我也可以在一列中连接所有的药物(MeDyx,MyTyy),但是我会在过程中散去很多信息,因为它将把这个新的字符串看作是它自己的药物。

我假设你想把每一行合并到一个较长的行中,那里是咨询顾问,患者id和医师id是关键,然后会有“med_x_MEDICALMENTPREMITED”和“med_x_READMISION”这样的列,根据数据判断是真是假?对于再入院病例,空值可能很棘手。我的理解正确吗?(跳转到答案-Pivot通常是本例中要使用的运算符)。是的,您的理解是正确的,尽管我并不特别喜欢该解决方案,因为我忽略了其他一些一对多关系,并且行将非常长。几百个属性并不是那么多。在文本挖掘中,有几千行并不罕见,尽管几千行会导致内存问题。在您的示例中有多少行?仅旋转此表(我将添加更多)后,我有1051行,但我将尝试删除一些行,因为它会生成一些不必要的列,其中包含其他id。数据集很大,但不是很大,所以RapidMiner应该能够处理。
Consult_ID| Patient_ID | Medic_ID | MedicamentPrescribed |Readmission
133       | 9893       | 23       | Med_X                |YES
133       | 9893       | 23       | Med_Y                |YES