Python回归
[在此处输入图像描述][1]我正在努力找出回归是否是解决Python当前挑战所需的路线。以下是我的设想:Python回归,python,pandas,machine-learning,statistics,regression,Python,Pandas,Machine Learning,Statistics,Regression,[在此处输入图像描述][1]我正在努力找出回归是否是解决Python当前挑战所需的路线。以下是我的设想: 我有一个数据框,是195行x25列 所有数据(索引和标题除外)都是整数 我有一个特定的列(B列),我想与所有其他列进行比较 试图确定任何列中是否存在影响或影响B列的数字范围 我想用Python计算的结果的一个例子类似于:当D列中的数据在10.20到16.4之间时,B列高于3.5 我在线阅读的Python回归示例似乎生成了我不需要的图表和统计数据(或者我的解释不正确)。我相信描述我所要求的
- 我有一个数据框,是195行x25列
- 所有数据(索引和标题除外)都是整数
- 我有一个特定的列(B列),我想与所有其他列进行比较
- 试图确定任何列中是否存在影响或影响B列的数字范围
- 我想用Python计算的结果的一个例子类似于:当D列中的数据在10.20到16.4之间时,B列高于3.5
提前谢谢大家 此时,您的目标听起来非常像探索性数据分析。您可能应该首先使用
pandas.Series.corr
(实际上与双变量回归相同)计算目标列B
和任何其他列
之间的相关性,您可以列出
:
other_cols = [col for col in df1.columns if col !='B']
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col]
要了解具体的范围,我建议查看:
cut
和qcut
功能可根据需要将数据剪切到bin
中,并相应地绘制或关联子集:参见文档和
为了可视化二元和简单的多元关系,我建议
seaborn
软件包,因为它包括各种类型的绘图,旨在帮助您快速掌握变量之间的协变量。例如,请参见单变量和双变量分布、线性关系图和分类数据图的示例
以上内容有助于您理解二元关系。一旦您想要发展到多元关系,就可以返回到python
IMHO中最适合这种关系的或包。希望这有助于您开始。那么,当D列中的数据介于10.20到16.4之间时,您想要实现的是确定B列是否高于3.5?能否提供一些示例数据框?我想了解哪些数字或范围会影响B列的结果。我将很快发布示例数据框。很抱歉,我无法添加附件。数据框的复制/粘贴未正确显示。非常感谢您的帖子和推荐。不客气。只要让我知道你是否需要澄清上述问题,或者这是否回答了你现在的问题。