Python 熊猫数据集的假设检验与p值计算

Python 熊猫数据集的假设检验与p值计算,python,pandas,p-value,hypothesis-test,Python,Pandas,P Value,Hypothesis Test,我想研究车祸和天气温度之间的关系 因此,我有一个汽车事故数据集,它具有与事故和天气温度相关的不同属性,事故发生的时间如下: 为了研究这种关系,我想将我的假设表述如下: H0:高温天气(大于28 以及车祸的数量 H1:炎热天气(大于28 以及车祸的数量 我不确定如何在python中计算上述假设的p值。我做了以下工作: import pandas as pd from scipy.stats import ttest_ind cd = pd.read_csv('Accidents.csv',

我想研究车祸和天气温度之间的关系

因此,我有一个汽车事故数据集,它具有与事故和天气温度相关的不同属性,事故发生的时间如下:

为了研究这种关系,我想将我的假设表述如下:

  • H0:高温天气(大于28 以及车祸的数量
  • H1:炎热天气(大于28 以及车祸的数量
我不确定如何在python中计算上述假设的p值。我做了以下工作:

import pandas as pd
from scipy.stats import ttest_ind

cd = pd.read_csv('Accidents.csv', parse_dates=['DATE'])

hot = cd[cd['Temperature Celsius']>28]
notHot = cd[cd['Temperature Celsius']<=28]

ttest_ind(hot['Temperature Celsius'], notHot['Temperature Celsius'])
将熊猫作为pd导入
从scipy.stats导入ttest\u ind
cd=pd.read\u csv('contractions.csv',parse\u dates=['DATE'])
热=cd[cd[‘摄氏温度’]>28]

notHot=cd[cd[‘摄氏温度’]这不是一个编码问题,而是一个统计建模问题。如果你只有关于事故的数据,你就无法验证你的假设。你需要检查在炎热天气发生事故的概率,与在非炎热天气发生事故的概率相比,如果没有关于非事故驾驶的信息,你就没有概率erez很难知道或获得未发生事故的记录。因此,鉴于我掌握的事故数据,我如何衡量炎热天气对事故数量的影响?是否有解决办法?例如@Aryerez,使用回归作为解决办法计算统计显著性是否更好?如果是,如何做到这一点?我能想到的唯一解决办法是,得到温度超过28度的部分时间,以及每天/周/月温度低于28度的部分时间,看看在炎热天气和非炎热天气下,每个时间单位发生多少事故。仅凭你掌握的数据,我想不出什么合适的事情。