Machine learning 作者能否';“独一无二”;“文体”;是否用于确定他/她是文本作者?
让我们想象一下,我有两个英文文本是由同一个人写的。 是否可以应用一些马尔可夫链算法来分析每种方法:根据统计数据创建某种指纹,并比较从不同文本中获得的指纹? 比如说,我们有一个有100篇课文的图书馆。有些人写了第一篇文章,有些人也写了第二篇,我们需要通过分析他/她的写作风格来猜测是哪一篇。Machine learning 作者能否';“独一无二”;“文体”;是否用于确定他/她是文本作者?,machine-learning,data-mining,markov-chains,nlp,Machine Learning,Data Mining,Markov Chains,Nlp,让我们想象一下,我有两个英文文本是由同一个人写的。 是否可以应用一些马尔可夫链算法来分析每种方法:根据统计数据创建某种指纹,并比较从不同文本中获得的指纹? 比如说,我们有一个有100篇课文的图书馆。有些人写了第一篇文章,有些人也写了第二篇,我们需要通过分析他/她的写作风格来猜测是哪一篇。 有没有已知的算法可以做到这一点?这里可以应用马尔可夫链吗?您可以从访问网站开始。有大量关于分类和聚类的文献。基本上,您希望运行一个聚类算法,然后希望由“哪个作者”决定聚类。这绝对是可能的,事实上,通过文本或文本
有没有已知的算法可以做到这一点?这里可以应用马尔可夫链吗?您可以从访问网站开始。有大量关于分类和聚类的文献。基本上,您希望运行一个聚类算法,然后希望由“哪个作者”决定聚类。这绝对是可能的,事实上,通过文本或文本的某一部分成功识别作者的记录令人印象深刻 一些有代表性的研究(警告:链接到pdf文件):
['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']
然后,每个数据点只是872章中每个章节70个单词中每个单词的计数
[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
每个数据点都是作者文学指纹的一个实例
每个数据点中的最后一项是一个整数(1-4),表示文本所属的四位作者之一
最近,我通过一个简单的无监督ML算法运行了这个数据集;结果非常好——几乎完全分离了这四个类,您可以在我之前的Q-on-StackOverflow中看到这一点,Q-on-StackOverflow涉及到一般使用ML的文本分类,而不是作者识别
那么,还使用了哪些其他算法呢?显然,大多数有监督类别的机器学习算法都能成功地解决这类数据。其中,多层感知器(MLP,又名神经网络)经常被使用(这是一项经常被引用的研究)。+1对于Apach Mahout参考,一个著名的例子是,谁写的?见附注19和20。我觉得这个问题不应该结束。2017年,Kaggle举办了一场竞赛:令人毛骨悚然的作者识别,这表明了这个问题的相关性。那么,是否有可能通过分析公共SNS文本来追踪匿名文章的作者?@FRIdSUN不确定你所说的“SNS”是什么意思,我认为这是一个打字错误,而你指的是短信。如果是这样的话,我的答案是否定的。原因是短信有自己的(非正式的)风格、语法和使用规则,而这些规则是可以接受的。有效地隐藏作者的文学散文风格。因此,例如,停止词频率,通常是作者风格的强烈签名(即,在许多作者的文本中保持一致)可能对SMS没有任何用处——例如,SMS文本很少有任何停止词(“a”、“a”、“the”),为了简洁起见,经常使用符号而不是停止词(&“for”and),等等。SNS=社交网络服务。我的意思是,如果有可能分析Facebook的帖子、推特推特、媒体文章等等来做这样的识别。如果不太清楚的话,不缩写的主要原因是什么。