python中的文本分类-（基于NLTK语句）_Python_Python 3.x_Machine Learning_Classification_Bayesian

python中的文本分类-（基于NLTK语句）

python python-3.x machine-learning

python中的文本分类-（基于NLTK语句）,python,python-3.x,machine-learning,classification,bayesian,Python,Python 3.x,Machine Learning,Classification,Bayesian,我需要对文本进行分类，我正在使用文本blob python模块来实现它。我可以使用朴素贝叶斯分类器/决策树。我对以下几点表示关注 1）我需要将句子归类为论点/而不是论点。我使用两个分类器，并使用apt数据集训练模型。我的问题是，我是否需要只使用关键字来训练模型？或者我可以用所有可能的变元和非变元样本句子训练数据集？在文本分类准确性和检索时间方面，哪种方法是最好的 2）既然分类是参数/不是参数，那么哪个分类器将获取准确的结果？它是朴素贝叶斯/决策树/正朴素贝叶斯提前感谢。理想情况下，据说您对

我需要对文本进行分类，我正在使用文本blob python模块来实现它。我可以使用朴素贝叶斯分类器/决策树。我对以下几点表示关注

1）我需要将句子归类为论点/而不是论点。我使用两个分类器，并使用apt数据集训练模型。我的问题是，我是否需要只使用关键字来训练模型？或者我可以用所有可能的变元和非变元样本句子训练数据集？在文本分类准确性和检索时间方面，哪种方法是最好的

2）既然分类是参数/不是参数，那么哪个分类器将获取准确的结果？它是朴素贝叶斯/决策树/正朴素贝叶斯

提前感谢。

理想情况下，

据说您对数据的训练越多，结果就越“好”

但这实际上取决于您测试数据并将其与您准备的实际结果进行比较之后

因此，为了回答您的问题，使用关键字训练模型可能会得到过于广泛的结果，而这些结果可能不是参数。但实际上，你必须将它与一些东西进行比较，所以我建议你也可以用一些论点似乎遵循的句子结构（某种模式）来训练你的模型，它可能会消除那些不是论点的。同样，这样做，然后测试它，看看你是否得到比以前的模型更高的精度

回答下一个问题：从文本分类的准确性和检索时间来看，哪种方法是最好的？这取决于你使用的数据，我不能回答这个问题，因为你必须进行交叉验证，看看你的模型是否达到了高精度。显然，您查看的功能越多，学习算法的性能就越差。如果您要处理千兆字节的文本进行分析，我建议使用Mapreduce来完成这项工作

您可能希望将支持向量机作为您的学习模型，使用学习模型（朴素贝叶斯、正朴素贝叶斯和决策树）进行测试，并查看哪一种性能更好

希望这有帮助