Python 二项分布参数估计作为机器学习特征

Python 二项分布参数估计作为机器学习特征,python,machine-learning,statistics,probability,feature-engineering,Python,Machine Learning,Statistics,Probability,Feature Engineering,我正在研究遗传数据,在这些数据中,等位基因在t染色体序列中被观察到n倍。换句话说,在t试验中n次成功 我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计,但我想表示点估计的置信度,也就是说,关于这个估计的可能性 现在,我相信负二项分布(或者仅仅是二项分布)是正确的,但是 如何在Python中估计分布的参数 作为经典(非NN)机器学习的一个特征,什么样的分布表示是理想的?保守估计可能是95%置信区间的上限,但我该如何计算呢?有没有比只取一个值更好的方法对分布进行特征

我正在研究遗传数据,在这些数据中,等位基因在t染色体序列中被观察到n倍。换句话说,在t试验中n次成功

我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计,但我想表示点估计的置信度,也就是说,关于这个估计的可能性

现在,我相信负二项分布(或者仅仅是二项分布)是正确的,但是

  • 如何在Python中估计分布的参数
  • 作为经典(非NN)机器学习的一个特征,什么样的分布表示是理想的?保守估计可能是95%置信区间的上限,但我该如何计算呢?有没有比只取一个值更好的方法对分布进行特征化

  • 谢谢

    我认为您需要的所有必要信息都可以通过标准统计方法计算出来,而无需应用机器学习

  • 二项分布参数p的最大似然估计 Bin(t,p)正如您正确建议的那样,只是n/t。若你们想得到一个置信区间而不是一个点估计,有一种方法可以通过 瓦尔德法:

    其中,z是标准正态分布的1-0.5α分位数。根据您的建模假设,您可以通过以下链接找到更多可能性:

  • 的95%置信区间可如上所示,用z=1.96计算

  • 至于机器学习算法的特征工程:由于您的参数分布基本上只依赖于一个估计参数p(给出的t除外),因此您可以将其直接用作唯一分布表示的特征。当然,也可以添加CI或方差作为附加功能。一切都取决于你到底要学什么,以及你的最终目标/标准是什么

  • 实现了许多计算二项式置信区间的方法。(附言:我是双筒望远镜的作者)

    pip安装bincoulars

    如果
    N=(总染色体测序)
    p=(观察到等位基因的次数/N)
    ,您可以直接估计置信区间:

    从双筒望远镜导入双筒望远镜
    N、 p=100,0.2
    二项置信度(p,N)
    # (0.1307892803998113, 0.28628125447599173)