Python 如何优化SciKit一节课的培训时间?

Python 如何优化SciKit一节课的培训时间?,python,optimization,scikit-learn,classification,svm,Python,Optimization,Scikit Learn,Classification,Svm,基本上我的问题和你的一样,但是没有人能解决问题 它似乎在10万人左右运行良好,但100万人需要很长时间。我想用1000万来运行它,但我不想等一天半(甚至更多)就什么也得不到了。有没有更快的方法,或者我应该用别的方法呢?我在这个领域的资历很浅,所以对此持保留态度 隔离林似乎是异常值检测的有效解决方案。与其他流行的算法相比,它们表现良好[Liu,2008]。此外,根据scikit learn,单类支持向量机在某种程度上容易出现异常。类1中的异常可能与类2重叠,并导致数据被错误标记。。。也许提取样本的

基本上我的问题和你的一样,但是没有人能解决问题

它似乎在10万人左右运行良好,但100万人需要很长时间。我想用1000万来运行它,但我不想等一天半(甚至更多)就什么也得不到了。有没有更快的方法,或者我应该用别的方法呢?

我在这个领域的资历很浅,所以对此持保留态度

隔离林似乎是异常值检测的有效解决方案。与其他流行的算法相比,它们表现良好[Liu,2008]。此外,根据scikit learn,单类支持向量机在某种程度上容易出现异常。类1中的异常可能与类2重叠,并导致数据被错误标记。。。也许提取样本的子集并使用它们创建支持向量机集合可以避免这种情况(并且仍然可以节省时间,具体取决于子集的大小),但隔离林自然会做到这一点

对于进一步的阅读,这似乎是一个很好的参考文件的主题

它提到了可能适用于您的案例的聚类和距离方法。我认为最好多阅读,确保你了解算法的不同优点/缺点。尤其是因为我正处于这样做的过程中,即使我知道你问题的具体情况,也不能给出可靠的建议

注:基于距离的算法。我知道有些是优化的,但我认为普遍的抱怨是它们的计算复杂度很高。许多基于聚类/距离/概率的算法在处理高维数据时也存在弱点

我在这一领域的资历很低,所以对此持怀疑态度

隔离林似乎是异常值检测的有效解决方案。与其他流行的算法相比,它们表现良好[Liu,2008]。此外,根据scikit learn,单类支持向量机在某种程度上容易出现异常。类1中的异常可能与类2重叠,并导致数据被错误标记。。。也许提取样本的子集并使用它们创建支持向量机集合可以避免这种情况(并且仍然可以节省时间,具体取决于子集的大小),但隔离林自然会做到这一点

对于进一步的阅读,这似乎是一个很好的参考文件的主题

它提到了可能适用于您的案例的聚类和距离方法。我认为最好多阅读,确保你了解算法的不同优点/缺点。尤其是因为我正处于这样做的过程中,即使我知道你问题的具体情况,也不能给出可靠的建议


注:基于距离的算法。我知道有些是优化的,但我认为普遍的抱怨是它们的计算复杂度很高。许多基于聚类/距离/概率的算法在处理高维数据时也存在弱点

如果您也在研究异常检测,那么隔离林是否值得一看?它们具有快速和无监督的优势,它们的性能也优于最先进的算法——Liu(2008)。隔离林我应该提到,
sklearn.ensembles
中有一个sklearn实现,这使得它易于使用。啊,我想同时使用新颖性检测和离群值检测,因为我的培训课只包含一个类,我不确定该类与另一个类相比是离群值还是更内敛的。(我只是在做二进制分类器。)但如果隔离林更快,那么我也可以。如果你也在看异常检测,也许隔离林值得一看?它们具有快速和无监督的优势,它们的性能也优于最先进的算法——Liu(2008)。隔离林我应该提到,
sklearn.ensembles
中有一个sklearn实现,这使得它易于使用。啊,我想同时使用新颖性检测和离群值检测,因为我的培训课只包含一个类,我不确定该类与另一个类相比是离群值还是更内敛的。(我只是在做二进制分类器。)但如果隔离林更快,那么我也可以。但你会知道一个有效的新奇性检测解决方案吗?编辑:我正在使用这些定义:我没有。但一个简短的搜索让我想到了这个(距离)。我相信那篇论文中的很多其他方法都会有sklearn实现,之后只是检查它们的计算复杂性。但是你会知道一个有效的新奇性检测解决方案吗?编辑:我正在使用这些定义:我没有。但一个简短的搜索让我想到了这个(距离)。我相信那篇文章中的很多其他方法都会有sklearn实现,之后只是检查它们的计算复杂性。