Machine learning 为什么词干化比柠檬化效果更好?
我正在使用IMDB数据集和ClassificationTree。我尝试过词干法(PorterStemming)和柠檬化法(WordNetLemmatizer),它告诉我词干法优于柠檬化法,但在文书工作中,人们总是使用柠檬化法。 所以我想知道,为什么我的呼气显示词干法更好 结果:Machine learning 为什么词干化比柠檬化效果更好?,machine-learning,nlp,feature-extraction,stemming,lemmatization,Machine Learning,Nlp,Feature Extraction,Stemming,Lemmatization,我正在使用IMDB数据集和ClassificationTree。我尝试过词干法(PorterStemming)和柠檬化法(WordNetLemmatizer),它告诉我词干法优于柠檬化法,但在文书工作中,人们总是使用柠檬化法。 所以我想知道,为什么我的呼气显示词干法更好 结果: STEMMING Classification Report: precision recall f1-score support Negative 0.
STEMMING
Classification Report:
precision recall f1-score support
Negative 0.70 0.71 0.70 4945
Positive 0.71 0.70 0.71 5055
accuracy 0.70 10000
macro avg 0.71 0.71 0.70 10000
weighted avg 0.71 0.70 0.71 10000
Confusion Matrix:
[[3504 1441]
[1509 3546]]
Accuracy: 0.705
Process finished with exit code 0
LEMMATIZATION
Classification Report:
precision recall f1-score support
Negative 0.68 0.70 0.69 4945
Positive 0.70 0.69 0.69 5055
accuracy 0.69 10000
macro avg 0.69 0.69 0.69 10000
weighted avg 0.69 0.69 0.69 10000
Confusion Matrix:
[[3441 1504]
[1589 3466]]
Accuracy: 0.6907
你做过统计显著性检验吗?这些值看起来很接近,实际上是更好,还是只是看起来有点像?