Python 文本分类性能_Python_Performance_Machine Learning_Textblob

Python 文本分类性能

python performance machine-learning

Python 文本分类性能,python,performance,machine-learning,textblob,Python,Performance,Machine Learning,Textblob,所以我使用的是textblob python库，但性能不足我已经序列化它并在循环之前加载它（使用pickle）目前需要~0.1（对于较小的训练数据）和~0.3（对于33000个测试数据）。我需要加快速度，这可能吗一些代码：这是对每个warc文件的正文和元数据执行检查的循环这里有两个文本分类检查 1）在过滤器中（非常小的训练数据）： 2）在索引_文件中（33000个培训数据）： “分类”和“概率分类”是利用工具提高性能的方法。您可以对数据使用特征选择。一些好的特征选择可以将特征减少9

所以我使用的是textblob python库，但性能不足

我已经序列化它并在循环之前加载它（使用pickle）

目前需要~0.1（对于较小的训练数据）和~0.3（对于33000个测试数据）。我需要加快速度，这可能吗

一些代码： 这是对每个warc文件的正文和元数据执行检查的循环

这里有两个文本分类检查

1）在过滤器中（非常小的训练数据）：

2）在索引_文件中（33000个培训数据）：

“分类”和“概率分类”是利用工具提高性能的方法。

您可以对数据使用特征选择。一些好的特征选择可以将特征减少90%并保持分类性能。在特征选择中，您选择顶部特征（在单词包中，您选择顶部影响单词），并基于这些单词（特征）训练模型。这减少了数据的维度（也防止了维度诅咒）以下是一个很好的调查：

简言之：

有两种特征选择方法可用：过滤和换行

过滤方法几乎是基于信息论的。搜索“相互信息”、“chi2”和。。。对于这种类型的特征选择

包装方法使用分类算法来估计库中最重要的特征。例如，选择一些单词并评估分类性能（召回率、精确度）

还有一些其他的方法也很有用。LSA和LSI可以超越分类性能和时间：

您可以使用sickit进行特征选择和LSA：

您可以对数据使用功能选择。一些好的特征选择可以将特征减少90%并保持分类性能。在特征选择中，您选择顶部特征（在单词包中，您选择顶部影响单词），并基于这些单词（特征）训练模型。这减少了数据的维度（也防止了维度诅咒）以下是一个很好的调查：