Pandas 熊猫:在大数据集中查找数据之间的关系

Pandas 熊猫:在大数据集中查找数据之间的关系,pandas,data-science,Pandas,Data Science,我是数据科学的新手,我想探索数据之间的关系。。我有一个非常大的数据集,包含556784 X 60行和列。有一些不需要的变量需要忽略,以便输入神经网络。使用线性回归和多重回归可以帮助我们找到Xlabel和Ylabel之间的关系。但在如此庞大的数据集中运行回归技术真的有帮助吗?或者有没有其他方法可以找到哪些数据对问题真正重要,哪些数据不重要 我知道这是一个理论问题,但它确实帮助我进一步前进。 谢谢 我也是DS的noob,但我想我可以给你一些想法: 处理数据的方式取决于处理的数据类型(以数字、文本或

我是数据科学的新手,我想探索数据之间的关系。。我有一个非常大的数据集,包含556784 X 60行和列。有一些不需要的变量需要忽略,以便输入神经网络。使用线性回归和多重回归可以帮助我们找到Xlabel和Ylabel之间的关系。但在如此庞大的数据集中运行回归技术真的有帮助吗?或者有没有其他方法可以找到哪些数据对问题真正重要,哪些数据不重要

我知道这是一个理论问题,但它确实帮助我进一步前进。
谢谢

我也是DS的noob,但我想我可以给你一些想法:

  • 处理数据的方式取决于处理的数据类型(以数字、文本或某种时间序列形式)
  • 你可以自己探索,制作一些情节
  • 您可以使用一小部分数据来减少计算时间
  • 神经网络真的需要吗?它给出了非常不清楚的结果,很难解释,并且需要时间来训练,也许你应该先尝试从“经典”模型开始,做一些好的特性工程
  • 最后,您可以查看sklearn手册(我觉得非常好)中的数据预处理章节,我想它会给您一些想法来尝试:


我希望其中的一些内容会有所帮助。

如果您可以共享示例数据,您可能会找到更多帮助。以防万一,您将决定: