Machine learning 如何知道weka预测哪个标签

Machine learning 如何知道weka预测哪个标签,machine-learning,weka,Machine Learning,Weka,我可能有一个愚蠢的问题,但我正在与weka合作预测不同基因在癌症中的作用,比如 cancer gene1 gene2 gene3 .... yes 0.85 1.23 3.52 .... no 7.58 6.25 8.91 .... no 6.52 5.25 9.85 .... yes 1.23 0.59 0.74 .... ..... 但是对于癌症患者,yes=25,no=158加上75个基因。 我

我可能有一个愚蠢的问题,但我正在与weka合作预测不同基因在癌症中的作用,比如

cancer  gene1   gene2  gene3 .... 
yes     0.85    1.23   3.52  ....
no      7.58    6.25   8.91  ....
no      6.52    5.25   9.85  ....
yes     1.23    0.59   0.74  ....
.....
但是对于癌症患者,yes=25,no=158加上75个基因。 我的问题是,当我运行例如InfoGain或Gainratio时,我有我选择的属性或排名属性(基因),但我怎么能说这些基因预测癌症=是或癌症=否


非常感谢

您可以用Weka训练数据,并以XML或任何其他格式保存由其构建的模型。然后用Weka或Python加载该模型,或使用您熟悉的其他语言。加载模型后,您可以相应地测试数据集。在Weka中,这非常简单。要获得更清晰的图片,请点击以下链接:

您可以使用Weka对数据进行训练,并以XML或任何其他格式保存由其构建的模型。然后使用Weka或Python加载该模型,或使用您熟悉的其他语言。加载模型后,您可以相应地测试数据集。在Weka中,这非常简单。要获得更清晰的图片,请点击以下链接:

我对遗传学了解不多,但你怎么知道“该”基因会致癌?很可能是许多相互作用的基因。你如何解释互动你的问题

专注于正式/技术方面的事情。在Weka中,您的类属性“cancer”需要是最后/最右边的列,或者在每次单击“开始”按钮之前,您都可以使用“选择框”(Nom)cancer)手动设置它

您可以查看Weka附带的diabetes.arff文件,该文件的结构与您的数据文件类似


如果您想要有一个可解释的模型,还可以运行决策树算法“J48”(在“分类”选项卡中)并在“属性”窗口中将minNumObj设置为更高的值(通过反复试验找到合适的值)。这将创建具有少量level/decision/if语句的扁平树。然后右键单击运行(在“分类”选项卡的左下面板中),并选择“可视化树”

我对遗传学了解不多,但你怎么知道“该”基因会致癌?很可能是许多相互作用的基因。你如何解释互动你的问题

专注于正式/技术方面的事情。在Weka中,您的类属性“cancer”需要是最后/最右边的列,或者在每次单击“开始”按钮之前,您都可以使用“选择框”(Nom)cancer)手动设置它

您可以查看Weka附带的diabetes.arff文件,该文件的结构与您的数据文件类似


如果您想要有一个可解释的模型,还可以运行决策树算法“J48”(在“分类”选项卡中)并在“属性”窗口中将minNumObj设置为更高的值(通过反复试验找到合适的值)。这将创建具有少量level/decision/if语句的扁平树。然后右键单击运行(在“分类”选项卡的左下面板中),并选择“可视化树”

在您的问题和您对另一个答案的评论中,您提到了GainRatioInfoGainCfs。这些都是方法。您可以使用它们来减少数据集中的属性数,方法是选择那些似乎提供了有关您试图预测的属性的最多信息的属性

听起来好像你想知道的是,每个属性(在你的情况下,基因)与感兴趣的结果是正相关还是负相关,换句话说,高水平的基因与癌症的高概率相关还是低概率相关?这不是属性选择方法的用途

正如建议的那样,您要做的是构建一个分类模型,该模型根据其他属性预测类别(
癌症
=
癌症
=
)。有各种各样的建模算法可用,它们的可解释性各不相同,但您可以先看看Weka的
函数.Logistic
,它将为每个属性提供正相关系数或负相关系数,或
trees.J48
,它将构建一个决策树,显示用于进行预测的属性以及属性的高值或低值的每个组合的结果

如果您拥有大量属性,并且您认为其中只有较小的子集是信息性的,那么您可能希望在分类之前使用属性选择-手动检查属性选择方法的输出,并在分类之前删除评分较低的属性,或者在Weka中自动使用,例如
元属性SelectedClassifier


如果您在选择和使用合适的分类技术方面需要更多帮助,我建议您查看和。

在您的问题中以及您对您提到的另一个答案的评论GainRatioInfoGainCfs。这些都是方法。您可以使用它们来减少数据集中的属性数,方法是选择那些似乎提供了有关您试图预测的属性的最多信息的属性

听起来好像你想知道的是,每个属性(在你的情况下,基因)与感兴趣的结果是正相关还是负相关,换句话说,高水平的基因与癌症的高概率相关还是低概率相关?这不是属性选择方法的用途

正如建议的那样,您要做的是构建一个分类模型,该模型根据其他属性预测类别(
癌症
=
癌症
=
)。有各种各样的建模算法可用,它们的可解释性也各不相同,但您可以先看看Weka的
functions.Logistic
,这将为您提供一个正面或负面的结果