Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/linq/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 什么机器学习算法适合于同时挖掘各种类型的数据?_Machine Learning_Data Mining - Fatal编程技术网

Machine learning 什么机器学习算法适合于同时挖掘各种类型的数据?

Machine learning 什么机器学习算法适合于同时挖掘各种类型的数据?,machine-learning,data-mining,Machine Learning,Data Mining,我使用的是python scikit学习包,因此任何使用scikit学习函数的演示都将非常感谢:) 现在我有几种类型的生物医学数据:临床数据(包括治疗信息和生存状态)、DNA甲基化数据、miRNA和RNA表达数据。每种数据类型包含大约300个患者样本和50个正常(对照)样本。我想使用几种机器学习算法将这些数据输入到一起,并训练一个模型,以便它能够根据给定的数据预测患者的生存率。这意味着,如果我们提供患者的临床信息、DNA甲基化、miRNA和RNA表达,我们可以判断患者是否会死亡或存活一段时间(最

我使用的是python scikit学习包,因此任何使用scikit学习函数的演示都将非常感谢:)
现在我有几种类型的生物医学数据:临床数据(包括治疗信息和生存状态)、DNA甲基化数据、miRNA和RNA表达数据。每种数据类型包含大约300个患者样本和50个正常(对照)样本。我想使用几种机器学习算法将这些数据输入到一起,并训练一个模型,以便它能够根据给定的数据预测患者的生存率。这意味着,如果我们提供患者的临床信息、DNA甲基化、miRNA和RNA表达,我们可以判断患者是否会死亡或存活一段时间(最好是在应用某些靶向治疗后)。
现在我有一些重要的问题:
1.由于样本的大小非常不同,我如何对这些数据进行分组并为算法提供数据?例如,如果要进行群集,如何对齐它们?
2.甲基化有很多问题,miRNA和RNA,每种都有一千多个。是否有一种方法可以过滤掉重要特征(prob)并仅基于这些数据训练模型?或者更好的是,在使用所有数据训练模型后,模型能否告诉我在大量特征中哪些特征是重要的?scikit学习预处理方法是否足以完成此步骤?
如果这个问题令人困惑,我想举个例子。比如说,如果我能筛选出一些基因,如果一个基因的甲基化水平、miRNA或RNA水平检测到异常,那么我们可以说这个患者很可能治愈或死亡。
3.有没有办法把几种算法结合起来?例如,使用聚类对所有特征进行分类,然后将结果输入到随机森林/PCA算法中,得到模型?

我还没有系统地学习机器学习,所以在尝试使用机器学习时,我感到非常困惑。我想我应该使用无监督的算法。这是正确的吗?

这一切都非常模糊和不清楚。我的印象是你还没有理解你自己的问题。谢谢你的反馈。我不是以英语为母语的人,也是机器学习新手,很抱歉让你感到困惑。我试着稍微修改一下我的问题,希望你们现在能更好地理解它。我认为你们主要需要更多的实验和研究,才能准确地指出你们的问题。不要把多个问题放在一个问题上,这会增加混乱。至于第1部分和第3部分,合奏可能是答案。这一切都非常模糊和不清楚。我的印象是你还没有理解你自己的问题。谢谢你的反馈。我不是以英语为母语的人,也是机器学习新手,很抱歉让你感到困惑。我试着稍微修改一下我的问题,希望你们现在能更好地理解它。我认为你们主要需要更多的实验和研究,才能准确地指出你们的问题。不要把多个问题放在一个问题上,这会增加混乱。至于第1部分和第3部分,合奏可能是答案。