Machine learning 基于机器学习的作者归属

Machine learning 基于机器学习的作者归属,machine-learning,classification,text-mining,text-classification,document-classification,Machine Learning,Classification,Text Mining,Text Classification,Document Classification,作为练习,我正在研究一个实用的机器学习问题。我只是需要帮助来解决我的问题 我有一位著名老作家的20本书的文本。历史上还有5本书一直在争论是否属于同一作者 我正在考虑最好的方式来表达这个问题。我正在考虑用一袋单词来寻找作者使用的最有意义的单词 我应该将其视为朴素贝叶斯(垃圾邮件/火腿)问题,还是应该使用KNN分类(作者/非作者)来检测每个文档的类别。还有其他的方法吗?我认为朴素的贝叶斯可以给你启发。还有一种方法是,找出将这些书分开的功能,例如 1.单词的复杂性,一些作者很容易理解和使用常见的单词,

作为练习,我正在研究一个实用的机器学习问题。我只是需要帮助来解决我的问题

我有一位著名老作家的20本书的文本。历史上还有5本书一直在争论是否属于同一作者

我正在考虑最好的方式来表达这个问题。我正在考虑用一袋单词来寻找作者使用的最有意义的单词


我应该将其视为朴素贝叶斯(垃圾邮件/火腿)问题,还是应该使用KNN分类(作者/非作者)来检测每个文档的类别。还有其他的方法吗?

我认为朴素的贝叶斯可以给你启发。还有一种方法是,找出将这些书分开的功能,例如
1.单词的复杂性,一些作者很容易理解和使用常见的单词,我是在暗示IDF(反向文档频率)
2.有些词在他那个时代可能根本不存在,比如“自拍”、“手机”等等

尝试找到很多这样的特征,也可以训练一个有鉴别能力的分类器