Machine learning 使用rapidminer处理一对多分类_Machine Learning_Classification_Data Mining_Rapidminer

Machine learning 使用rapidminer处理一对多分类

machine-learning

Machine learning 使用rapidminer处理一对多分类,machine-learning,classification,data-mining,rapidminer,Machine Learning,Classification,Data Mining,Rapidminer,我对这个地区比较陌生，我正在尝试使用Rapidminer解决一个分类问题。我得到了一个访问医生的数据集，我必须检测再入院病例，但由于它最初位于一个表中，具有某种一对多的关系，因此对于每种不同的处方药物，我有几行与同一次访问相关的数据。例如：不幸的是，给出的格式不在我的掌握之中，因此我必须使用它。我想知道是否有任何标准的解决方案（可能包含在Rapidminer中）来解决这样的问题我能想到的唯一方法是创建一个包含访问的新表，将每个可能的药物添加为一个新功能，然后指出它是否是处方药，但我不满意它

我对这个地区比较陌生，我正在尝试使用Rapidminer解决一个分类问题。我得到了一个访问医生的数据集，我必须检测再入院病例，但由于它最初位于一个表中，具有某种一对多的关系，因此对于每种不同的处方药物，我有几行与同一次访问相关的数据。
例如：

不幸的是，给出的格式不在我的掌握之中，因此我必须使用它。我想知道是否有任何标准的解决方案（可能包含在Rapidminer中）来解决这样的问题

我能想到的唯一方法是创建一个包含访问的新表，将每个可能的药物添加为一个新功能，然后指出它是否是处方药，但我不满意它，因为它将是一个具有空字段的功能（518种不同的药物）的数量高得离谱。

我也可以在一列中连接所有的药物（MeDyx，MyTyy），但是我会在过程中散去很多信息，因为它将把这个新的字符串看作是它自己的药物。

我假设你想把每一行合并到一个较长的行中，那里是咨询顾问，患者id和医师id是关键，然后会有“med_x_MEDICALMENTPREMITED”和“med_x_READMISION”这样的列，根据数据判断是真是假？对于再入院病例，空值可能很棘手。我的理解正确吗？（跳转到答案-Pivot通常是本例中要使用的运算符）。是的，您的理解是正确的，尽管我并不特别喜欢该解决方案，因为我忽略了其他一些一对多关系，并且行将非常长。几百个属性并不是那么多。在文本挖掘中，有几千行并不罕见，尽管几千行会导致内存问题。在您的示例中有多少行？仅旋转此表（我将添加更多）后，我有1051行，但我将尝试删除一些行，因为它会生成一些不必要的列，其中包含其他id。数据集很大，但不是很大，所以RapidMiner应该能够处理。

Consult_ID| Patient_ID | Medic_ID | MedicamentPrescribed |Readmission
133       | 9893       | 23       | Med_X                |YES
133       | 9893       | 23       | Med_Y                |YES