Python 如何使用熊猫数据框架和特定条件进行假设检验?
我正在尝试使用ols模型进行假设检验。我正试图根据我的数据框中的四个组,为tweet计数建立这个模型。这四个群体是运动员、首席执行官、政治家和名人。我在一列中将四个组作为一个组分别标记为每个名称Python 如何使用熊猫数据框架和特定条件进行假设检验?,python,pandas,statsmodels,anova,Python,Pandas,Statsmodels,Anova,我正在尝试使用ols模型进行假设检验。我正试图根据我的数据框中的四个组,为tweet计数建立这个模型。这四个群体是运动员、首席执行官、政治家和名人。我在一列中将四个组作为一个组分别标记为每个名称 frames = [CEO_df, athletes_df, Celebrity_df, politicians_df] final_df = pd.concat(frames) final_df=final_df.reindex(columns=["name","grou
frames = [CEO_df, athletes_df, Celebrity_df, politicians_df]
final_df = pd.concat(frames)
final_df=final_df.reindex(columns=["name","group","tweet_count","retweet_count","favorite_count"])
final_df
我想做以下几点:
model=ols("tweet_count ~ C(Athlete) + C(Celebrity) + C(CEO) + C(Politicians)", data=final_df).fit()
table=sm.stats.anova_lm(model, typ=2)
print(table)
这可能吗?否则,我如何才能在这些条件下进行假设检验
这是我打印的期末报告:
name group tweet_count retweet_count favorite_count
0 @aws_cloud @ #ReInvent R “Ray” Wang 王瑞光 #1A CEO 6 6 0
1 Aaron Levie CEO 48 1140 18624
2 Andrew Mason CEO 24 0 0
3 Bill Gates CEO 114 78204 439020
4 Bill Gross CEO 36 486 1668
... ... ... ... ... ...
56 Tim Kaine Politician 48 8346 50898
57 Tim O'Reilly Politician 14 28 0
58 Trey Gowdy Politician 12 1314 6780
59 Vice President Mike Pence Politician 84 1146408 0
60 klay thompson Politician 48 41676 309924
这是可能的,请查看此链接,谢谢您的链接。然而,我没有找到如何使用此链接解决我的问题。我能做些什么来轻松实现这一点?你能清楚地解释一下你想测试什么吗?它是分组下的每个个人级别吗?
name group tweet_count retweet_count favorite_count
0 @aws_cloud @ #ReInvent R “Ray” Wang 王瑞光 #1A CEO 6 6 0
1 Aaron Levie CEO 48 1140 18624
2 Andrew Mason CEO 24 0 0
3 Bill Gates CEO 114 78204 439020
4 Bill Gross CEO 36 486 1668
... ... ... ... ... ...
56 Tim Kaine Politician 48 8346 50898
57 Tim O'Reilly Politician 14 28 0
58 Trey Gowdy Politician 12 1314 6780
59 Vice President Mike Pence Politician 84 1146408 0
60 klay thompson Politician 48 41676 309924