提高Python复制大型数据集的效率
我在用Python实现随机林时遇到了一些问题。简单地说,我很清楚Python并不是用于高效的数字处理的。这一选择更多地是基于希望对Python有更深的理解和更多的经验。我想找到一个解决办法,使它“合理” 话虽如此,我很好奇这里是否有人能对我的实现提出一些性能改进建议。通过探查器运行它,很明显大部分时间都花在执行list“append”命令和我的数据集拆分操作上。本质上,我有一个作为矩阵实现的大型数据集(更确切地说,是列表列表)。我正在使用该数据集构建一个决策树,因此我将在信息增益最高的列上进行拆分。拆分包括创建两个新的数据集,其中只有与某些标准匹配的行。新的数据集是通过初始化两个空lista并向其添加适当的行来生成的 我事先不知道列表的大小,所以我不能预先分配它们,除非可以预先分配大量的列表空间,但在最后更新列表大小(我在任何地方都没有看到引用)提高Python复制大型数据集的效率,python,performance,random-forest,Python,Performance,Random Forest,我在用Python实现随机林时遇到了一些问题。简单地说,我很清楚Python并不是用于高效的数字处理的。这一选择更多地是基于希望对Python有更深的理解和更多的经验。我想找到一个解决办法,使它“合理” 话虽如此,我很好奇这里是否有人能对我的实现提出一些性能改进建议。通过探查器运行它,很明显大部分时间都花在执行list“append”命令和我的数据集拆分操作上。本质上,我有一个作为矩阵实现的大型数据集(更确切地说,是列表列表)。我正在使用该数据集构建一个决策树,因此我将在信息增益最高的列上进行拆
在python中有没有更好的方法来处理这项任务?如果不查看您的代码,就很难给出任何具体的建议,因为优化是一个依赖于代码的过程,会因情况而异。然而,还有一些一般性的事情:
在没有看到代码的情况下,很难给出任何具体的建议,因为优化是一个依赖于代码的过程,会因情况而异。然而,还有一些一般性的事情:
Python中的高效数字处理可以使用Numpy和Scipy完成。Python中的高效数字处理可以使用Numpy和Scipy完成。