R 使用opt1D使套索系数等于0

R 使用opt1D使套索系数等于0,r,R,嗨,伙计们,我有一个关于套索的问题。我越来越疯狂,因为这是我无法仅根据我的背景来解决的问题。我是生物学家。简单地说,我使用R库“惩罚”运行套索。特别是我使用了opt1D函数,在一个大约30列的数据框(数字)上进行了大约500次模拟,这是我要测试的生物标记物(基因表达),3000行是人,其中大约50行是肿瘤,其余的都是正常人。不幸的是,通过使用L1正则化,500个模拟的所有系数都是0。如果我检查系数的L2矩阵,它们接近于0。我的观点是,我不能认为我所有的生物标记物都不能区分正常人和肿瘤。我不知道我

嗨,伙计们,我有一个关于套索的问题。我越来越疯狂,因为这是我无法仅根据我的背景来解决的问题。我是生物学家。简单地说,我使用R库“惩罚”运行套索。特别是我使用了opt1D函数,在一个大约30列的数据框(数字)上进行了大约500次模拟,这是我要测试的生物标记物(基因表达),3000行是人,其中大约50行是肿瘤,其余的都是正常人。不幸的是,通过使用L1正则化,500个模拟的所有系数都是0。如果我检查系数的L2矩阵,它们接近于0。我的观点是,我不能认为我所有的生物标记物都不能区分正常人和肿瘤。我不知道我所做的是否只是检查我的分子的分辨力。我还可以做些什么来深入了解为什么他们都是0,我还可以做些什么来验证他们是否真的无法对我的队列进行分层


预先感谢

< P>你是否考虑在使用正则化之前不惩罚你的数据?L1正则化自然会产生大量的零系数


作为旁注,我将首先运行PCA/PCoA,并查看您的基因是否根据您的类变量进行分离。这可以为您节省一些时间,并允许您将数据集裁剪为那些在类变量中显示最大差异的基因。另外,如果您在R方面的经验相对较少,我建议您使用线性建模软件包,如Limma,因为它有优秀的文档和许多易于理解的示例。

我不熟悉该软件包,但我猜它与过度拟合正则化设置有关。如果您将边界设置得太高,L1和L2都将给出零(或接近零)系数。非常感谢David。但我如何手动设定界限呢?我最近研究了我的基因在肿瘤患者和正常患者中的分布,不幸的是,它们有很多重叠,这意味着这两类患者之间没有实质性的差异。我想这就是为什么套索系数为0的原因。