Python回归

Python回归,python,pandas,machine-learning,statistics,regression,Python,Pandas,Machine Learning,Statistics,Regression,[在此处输入图像描述][1]我正在努力找出回归是否是解决Python当前挑战所需的路线。以下是我的设想: 我有一个数据框,是195行x25列 所有数据(索引和标题除外)都是整数 我有一个特定的列(B列),我想与所有其他列进行比较 试图确定任何列中是否存在影响或影响B列的数字范围 我想用Python计算的结果的一个例子类似于:当D列中的数据在10.20到16.4之间时,B列高于3.5 我在线阅读的Python回归示例似乎生成了我不需要的图表和统计数据(或者我的解释不正确)。我相信描述我所要求的

[在此处输入图像描述][1]我正在努力找出回归是否是解决Python当前挑战所需的路线。以下是我的设想:

  • 我有一个数据框,是195行x25列
  • 所有数据(索引和标题除外)都是整数
  • 我有一个特定的列(B列),我想与所有其他列进行比较
  • 试图确定任何列中是否存在影响或影响B列的数字范围
  • 我想用Python计算的结果的一个例子类似于:当D列中的数据在10.20到16.4之间时,B列高于3.5
我在线阅读的Python回归示例似乎生成了我不需要的图表和统计数据(或者我的解释不正确)。我相信描述我所要求的内容的恰当措辞是,识别特定值或数据帧中两列之间的线性值范围

有人能帮我指出正确的方向吗


提前谢谢大家

此时,您的目标听起来非常像探索性数据分析。您可能应该首先使用
pandas.Series.corr
(实际上与双变量回归相同)计算目标
列B
和任何其他
之间的
相关性,您可以
列出

other_cols = [col for col in df1.columns if col !='B']
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col]
要了解具体的范围,我建议查看:

  • cut
    qcut
    功能可根据需要将数据剪切到
    bin
    中,并相应地绘制或关联子集:参见文档和
为了可视化二元和简单的多元关系,我建议

  • seaborn
    软件包,因为它包括各种类型的绘图,旨在帮助您快速掌握变量之间的协变量。例如,请参见单变量和双变量分布、线性关系图和分类数据图的示例

以上内容有助于您理解二元关系。一旦您想要发展到多元关系,就可以返回到
python
IMHO中最适合这种关系的或包。希望这有助于您开始。

那么,当D列中的数据介于10.20到16.4之间时,您想要实现的是确定B列是否高于3.5?能否提供一些示例数据框?我想了解哪些数字或范围会影响B列的结果。我将很快发布示例数据框。很抱歉,我无法添加附件。数据框的复制/粘贴未正确显示。非常感谢您的帖子和推荐。不客气。只要让我知道你是否需要澄清上述问题,或者这是否回答了你现在的问题。