Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/73.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 统计计算工作流程的建议_Python_R_Statistics_Boost Python - Fatal编程技术网

Python 统计计算工作流程的建议

Python 统计计算工作流程的建议,python,r,statistics,boost-python,Python,R,Statistics,Boost Python,注意:我选择在这里而不是在stats.stackexchange.com上问这个问题,因为它是关于软件工作流工具的,而不是关于任何特定的方法。我觉得更熟悉实际软件包的人能够提供更多帮助,因为我特别试图避免从学术界得到的常见答案,那就是总是使用R或Matlab,然后让研究生找出如何使东西适用于大数据 我即将开始一个大型项目,涉及大量的数据挖掘(主要是通过SQL),大量快速而肮脏的基本统计数据(一般线性模型,协方差估计等),大量更先进的方法(贝叶斯方法,高级采样器,非参数),强烈需要扩展多处理,以及

注意:我选择在这里而不是在stats.stackexchange.com上问这个问题,因为它是关于软件工作流工具的,而不是关于任何特定的方法。我觉得更熟悉实际软件包的人能够提供更多帮助,因为我特别试图避免从学术界得到的常见答案,那就是总是使用R或Matlab,然后让研究生找出如何使东西适用于大数据

我即将开始一个大型项目,涉及大量的数据挖掘(主要是通过SQL),大量快速而肮脏的基本统计数据(一般线性模型,协方差估计等),大量更先进的方法(贝叶斯方法,高级采样器,非参数),强烈需要扩展多处理,以及生成好图的需要

目前,我对Python和相关的科学工具(NumPy、scikits、matplotlib,甚至是用于多处理的PyCUDA/MPI)非常在行,但我以前从未处理过SQL。然而,我发现我所需要的方法在Python中通常比较慢,并且在数据集变大时不能很好地扩展。我只懂一点点C/C++,对Boost.Python或Cython知之甚少

我知道很多统计学家都使用R,但我也听说R与Matlab相比只是一个小小的进步,Matlab是一种减慢速度的方法,并且被奇怪的内置函数所困扰

我的问题是:做这类统计工作的好工作流程/工具套件是什么。当我想用我编写的一些Python代码,通过把它移动到一种不同的语言或将Python库打包成C++时,我应该考虑什么工具,比如说。Python是让我支持C++中的高级数学算法然后在Python中使用它们的那种东西吗?在统计工作时,这是一个好的事情,还是Posith.Python在统计功能上太微不足道? 我还看到了PyR2,它允许您访问除Python之外的几乎所有R。这是否足够快,可以在大数据上使用


关于统计工作流程的任何其他建议都将非常好

如果您感兴趣的话,还有PyPy,它是带有JIT编译器的Python。PyPy包含一个Numpy版本(大部分工作正常),与普通Python相比,它的工作速度非常快。这可能是未来需要记住的一件大事,但如果它不支持很多第三方库,可能会很困难。例如,我几乎肯定希望能够访问scikets.statsmodels和scikets.learn。如果不这样做,速度的提高将被试图重新编写我自己的统计数据和机器学习函数所抵消。正如您所知,R将与您自己编写的C/C++代码(并且将与您能找到的任何db进行对话)进行良好的接口。但是,如果您已经对Python感到更舒服,那么在那里工作可能会节省一些时间。我没有否决投票,但投了接近票数的一票。这个问题完全是“好”的,但完全属于“非建设性”的定义。不会有明确客观的答案。如果你觉得这令人不安,你应该在Meta上提问,但我几乎可以保证,额外的关注会导致问题更快地被解决,而且从2009年开始,当这方面的标准更宽松时,通过链接到类似的问题,你将不会获得任何盟友。几点建议。如果这是一个学术项目,或者如果你有1000美元的工具,我肯定会建议你尝试——据说这是生产级R实现,具有更快的内置功能和良好的可扩展性(包括扩展到集群)。此外,如果您准备学习新语言,请查看Clojure和项目。如果您仍然想使用Python,您可能对使用Jython或IronPython感兴趣(尽管我不确定它们是否会提高性能)。