Python 熊猫数据集的假设检验与p值计算_Python_Pandas_P Value_Hypothesis Test

Python 熊猫数据集的假设检验与p值计算

python pandas

Python 熊猫数据集的假设检验与p值计算,python,pandas,p-value,hypothesis-test,Python,Pandas,P Value,Hypothesis Test,我想研究车祸和天气温度之间的关系因此，我有一个汽车事故数据集，它具有与事故和天气温度相关的不同属性，事故发生的时间如下：为了研究这种关系，我想将我的假设表述如下： H0：高温天气（大于28 以及车祸的数量 H1：炎热天气（大于28 以及车祸的数量我不确定如何在python中计算上述假设的p值。我做了以下工作： import pandas as pd from scipy.stats import ttest_ind cd = pd.read_csv('Accidents.csv',

我想研究车祸和天气温度之间的关系

因此，我有一个汽车事故数据集，它具有与事故和天气温度相关的不同属性，事故发生的时间如下：

为了研究这种关系，我想将我的假设表述如下：

H0：高温天气（大于28 以及车祸的数量
H1：炎热天气（大于28 以及车祸的数量

我不确定如何在python中计算上述假设的p值。我做了以下工作：

import pandas as pd
from scipy.stats import ttest_ind

cd = pd.read_csv('Accidents.csv', parse_dates=['DATE'])

hot = cd[cd['Temperature Celsius']>28]
notHot = cd[cd['Temperature Celsius']<=28]

ttest_ind(hot['Temperature Celsius'], notHot['Temperature Celsius'])

将熊猫作为pd导入
从scipy.stats导入ttest\u ind
cd=pd.read\u csv（'contractions.csv'，parse\u dates=['DATE']）
热=cd[cd[‘摄氏温度’]>28]
notHot=cd[cd[‘摄氏温度’]这不是一个编码问题，而是一个统计建模问题。如果你只有关于事故的数据，你就无法验证你的假设。你需要检查在炎热天气发生事故的概率，与在非炎热天气发生事故的概率相比，如果没有关于非事故驾驶的信息，你就没有概率erez很难知道或获得未发生事故的记录。因此，鉴于我掌握的事故数据，我如何衡量炎热天气对事故数量的影响？是否有解决办法？例如@Aryerez，使用回归作为解决办法计算统计显著性是否更好？如果是，如何做到这一点？我能想到的唯一解决办法是，得到温度超过28度的部分时间，以及每天/周/月温度低于28度的部分时间，看看在炎热天气和非炎热天气下，每个时间单位发生多少事故。仅凭你掌握的数据，我想不出什么合适的事情。