Python 二项分布参数估计作为机器学习特征
我正在研究遗传数据,在这些数据中,等位基因在t染色体序列中被观察到n倍。换句话说,在t试验中n次成功 我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计,但我想表示点估计的置信度,也就是说,关于这个估计的可能性 现在,我相信负二项分布(或者仅仅是二项分布)是正确的,但是Python 二项分布参数估计作为机器学习特征,python,machine-learning,statistics,probability,feature-engineering,Python,Machine Learning,Statistics,Probability,Feature Engineering,我正在研究遗传数据,在这些数据中,等位基因在t染色体序列中被观察到n倍。换句话说,在t试验中n次成功 我想在机器学习算法中包含每个等位基因频率的估计值。我当然可以用n/t得到一个点估计,但我想表示点估计的置信度,也就是说,关于这个估计的可能性 现在,我相信负二项分布(或者仅仅是二项分布)是正确的,但是 如何在Python中估计分布的参数 作为经典(非NN)机器学习的一个特征,什么样的分布表示是理想的?保守估计可能是95%置信区间的上限,但我该如何计算呢?有没有比只取一个值更好的方法对分布进行特征
谢谢 我认为您需要的所有必要信息都可以通过标准统计方法计算出来,而无需应用机器学习
pip安装bincoulars
如果N=(总染色体测序)
和p=(观察到等位基因的次数/N)
,您可以直接估计置信区间:
从双筒望远镜导入双筒望远镜
N、 p=100,0.2
二项置信度(p,N)
# (0.1307892803998113, 0.28628125447599173)