Machine learning 需要解释缺失值的统计表达式吗

Machine learning 需要解释缺失值的统计表达式吗,machine-learning,data-science,missing-data,imputation,Machine Learning,Data Science,Missing Data,Imputation,我在读一篇关于互联网上价值缺失的论文,在解释下面粗体突出显示的第一句话的含义时遇到问题: 缺少数据会带来各种问题首先,缺少数据会降低统计能力,这是指当无效假设为假时,测试将拒绝该假设的概率。其次,丢失的数据可能会导致参数估计的偏差。第三,它可以降低样本的代表性。第四,它可能使研究分析复杂化。每一种扭曲都可能威胁到试验的有效性,并可能导致无效结论 希望听到一些解释。首先,力量是否定无效假设的概率,而事实上它是错误的。所以,你可以说这是做出正确决定的概率。缺乏数据会降低这种统计能力,研究样本量低,调

我在读一篇关于互联网上价值缺失的论文,在解释下面粗体突出显示的第一句话的含义时遇到问题:

缺少数据会带来各种问题首先,缺少数据会降低统计能力,这是指当无效假设为假时,测试将拒绝该假设的概率。其次,丢失的数据可能会导致参数估计的偏差。第三,它可以降低样本的代表性。第四,它可能使研究分析复杂化。每一种扭曲都可能威胁到试验的有效性,并可能导致无效结论

希望听到一些解释。

首先,力量是否定无效假设的概率,而事实上它是错误的。所以,你可以说这是做出正确决定的概率。缺乏数据会降低这种统计能力,研究样本量低,调查的影响小,或者两者都会对具有统计意义的发现实际反映真实影响的可能性产生不利影响。也就是说,如果您有100个样本,并且由于缺少值,您从数据集中丢弃了40个样本,那么无论您使用剩余的60个样本得出什么结论,您都不能很有信心它反映了真实的效果

其次,如果您选择使用平均值替换那些缺失的值,那么您将向数据注入某种偏差,实际上,无论您决定替换或删除数据,偏差都会被注入。(尽管某些偏见在某些情况下更合理)

第三,这句话本身很有解释性,那些缺失的值降低了样本的代表性,因为您没有关于这些样本所需的所有信息


最后,我们可以说它(缺失值)实际上使我们的研究复杂化,这是我们在处理数据时最不希望看到的事情,但是由于人为错误和许多其他错误来源,我们通常不得不在某些操作中处理这些缺失值。

请仅在编程问题中使用它。这样的问题更适合于或。我在发帖时没有意识到。不用担心,这种情况经常发生。我只是让人们知道有专门的SE站点。