Python 二项分布参数估计作为机器学习特征_Python_Machine Learning_Statistics_Probability_Feature Engineering

Python 二项分布参数估计作为机器学习特征

python machine-learning statistics

Python 二项分布参数估计作为机器学习特征,python,machine-learning,statistics,probability,feature-engineering,Python,Machine Learning,Statistics,Probability,Feature Engineering,我正在研究遗传数据，在这些数据中，等位基因在t染色体序列中被观察到n倍。换句话说，在t试验中n次成功我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计，但我想表示点估计的置信度，也就是说，关于这个估计的可能性现在，我相信负二项分布（或者仅仅是二项分布）是正确的，但是如何在Python中估计分布的参数作为经典（非NN）机器学习的一个特征，什么样的分布表示是理想的？保守估计可能是95%置信区间的上限，但我该如何计算呢？有没有比只取一个值更好的方法对分布进行特征

我正在研究遗传数据，在这些数据中，等位基因在t染色体序列中被观察到n倍。换句话说，在t试验中n次成功

我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计，但我想表示点估计的置信度，也就是说，关于这个估计的可能性

现在，我相信负二项分布（或者仅仅是二项分布）是正确的，但是

如何在Python中估计分布的参数

作为经典（非NN）机器学习的一个特征，什么样的分布表示是理想的？保守估计可能是95%置信区间的上限，但我该如何计算呢？有没有比只取一个值更好的方法对分布进行特征化

谢谢

我认为您需要的所有必要信息都可以通过标准统计方法计算出来，而无需应用机器学习

二项分布参数p的最大似然估计 Bin（t，p）正如您正确建议的那样，只是n/t。若你们想得到一个置信区间而不是一个点估计，有一种方法可以通过瓦尔德法：

其中，z是标准正态分布的1-0.5α分位数。根据您的建模假设，您可以通过以下链接找到更多可能性：

p̂的95%置信区间可如上所示，用z=1.96计算

至于机器学习算法的特征工程：由于您的参数分布基本上只依赖于一个估计参数p（给出的t除外），因此您可以将其直接用作唯一分布表示的特征。当然，也可以添加CI或方差作为附加功能。一切都取决于你到底要学什么，以及你的最终目标/标准是什么

实现了许多计算二项式置信区间的方法。（附言：我是双筒望远镜的作者）

pip安装bincoulars

如果

N=（总染色体测序）

和

p=（观察到等位基因的次数/N）

，您可以直接估计置信区间：

从双筒望远镜导入双筒望远镜
N、 p=100，0.2
二项置信度（p，N）
# (0.1307892803998113, 0.28628125447599173)