Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/363.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 生物变异或真正受影响的基因。_Python_R_Machine Learning - Fatal编程技术网

Python 生物变异或真正受影响的基因。

Python 生物变异或真正受影响的基因。,python,r,machine-learning,Python,R,Machine Learning,我是一名生物系的学生,在实验室里我们正在老鼠身上测试某种药物。在正常状态下,我们有多组生物复制的基因表达数据: 基因复制1复制2 基因1-0.842138-0.701153 基因2-0.796896-0.725085 基因3-0.835920-0.707572 基因5-0.702721-0.724579 基因6-0.815476-0.737112 .... 基因20000 在给它们喂药后,我们得到了一个新的基因表达数据: 我的问题是,我如何才能将那些真正受影响的基因从那些仅仅是生物变异(

我是一名生物系的学生,在实验室里我们正在老鼠身上测试某种药物。在正常状态下,我们有多组生物复制的基因表达数据:

基因复制1复制2
基因1-0.842138-0.701153
基因2-0.796896-0.725085
基因3-0.835920-0.707572
基因5-0.702721-0.724579
基因6-0.815476-0.737112
....
基因20000

在给它们喂药后,我们得到了一个新的基因表达数据:

我的问题是,我如何才能将那些真正受影响的基因从那些仅仅是生物变异(复制之间的差异)的基因中分离出来


我是机器学习新手,我相信监督学习应该是我的选择,对吗?训练数据是我的复制数据,然后我可以测试药物治疗后的每个基因是否能落入复制定义的“耐受区”。但我不确定该用哪种方法。如有任何指导,请提前告知

首先欢迎来到堆栈溢出!第二,我真的认为这个问题应该移到这里:或者。尽管如此,我还是会尽力帮你找到答案

我有几个问题,当你回答时,你应该走上正确的道路来解决这个问题:

  • 您是如何将数据拆分为培训数据的(您用于培训目的的数据占总数据的百分比是多少)
  • 你是否为最初引入化学物质的基因建立了界限
  • 您最初期望的差异是什么
  • 测试完成后,方差的边界是否发生了显著变化
  • 对于这个特定问题,您考虑使用哪些算法
  • 为了获得更好的洞察力,您是否打算使用
  • 您是否想过使用K-means来观察“新药”推出后数据集群的变化 我个人会计算这些基因的平均值和标准偏差,并在药物引入后进行同样的计算。这将有助于您了解边界是如何变化的,以及最有可能发生扩散的位置。另外,如果你有选择的话,一定要使用EDA(我知道我在这方面很说教,但它很有帮助)。我认为这应该有助于你更好地了解你的问题。我希望我帮了忙


    算法的有用链接:

    首先欢迎使用堆栈溢出!第二,我真的认为这个问题应该移到这里:或者。尽管如此,我还是会尽力帮你找到答案

    我有几个问题,当你回答时,你应该走上正确的道路来解决这个问题:

  • 您是如何将数据拆分为培训数据的(您用于培训目的的数据占总数据的百分比是多少)
  • 你是否为最初引入化学物质的基因建立了界限
  • 您最初期望的差异是什么
  • 测试完成后,方差的边界是否发生了显著变化
  • 对于这个特定问题,您考虑使用哪些算法
  • 为了获得更好的洞察力,您是否打算使用
  • 您是否想过使用K-means来观察“新药”推出后数据集群的变化 我个人会计算这些基因的平均值和标准偏差,并在药物引入后进行同样的计算。这将有助于您了解边界是如何变化的,以及最有可能发生扩散的位置。另外,如果你有选择的话,一定要使用EDA(我知道我在这方面很说教,但它很有帮助)。我认为这应该有助于你更好地了解你的问题。我希望我帮了忙


    算法的有用链接:

    oh boy。我需要一分钟…哦,孩子。我需要一分钟……我建议这样做。最好的办法是熟悉算法,同时也看看遗传算法。我希望我的回答能帮助你。我的问题可能太天真了。。。我应该学习更多的统计知识然后问…1。所有的复制数据都是我的训练数据。2.我认为复制品中的每个基因表达数据定义了界限。就像在我的第一个散点图中,虚线区域定义了“耐受区”,然后在药物治疗后,我想找出哪些基因有显著变化(脱落耐受区)7。这确实有点像k-均值聚类,我不知道如何定义cluster1(复制之间的变化)和cluster2(药物治疗后显著受影响的基因)@AlicePsyche你知道该读什么,从哪里开始。我建议您不要将整个数据用作培训数据,而是将其拆分为30%到70%或40%到60%。查看K-means并熟悉如何决定需要多少集群。网上也有很多关于机器学习的代码示例,特别是在Python中。@ZombieChowder:migrate观点和您的问题列表属于注释,而不是答案。我对您的问题没有问题;我只是建议将最初的评论和七点移至评论。我会在这个答案中留下最后一段和链接。我建议这样做。最好的办法是熟悉算法,同时也看看遗传算法。我希望我的回答能帮助你。我的问题可能太天真了。。。我应该学习更多的统计知识然后问…1。所有的复制数据都是我的训练数据。2.我认为复制品中的每个基因表达数据定义了界限。就像我的第一个散点图一样,虚线区域定义了