Machine learning 作者能否';“独一无二”;“文体”;是否用于确定他/她是文本作者?

Machine learning 作者能否';“独一无二”;“文体”;是否用于确定他/她是文本作者?,machine-learning,data-mining,markov-chains,nlp,Machine Learning,Data Mining,Markov Chains,Nlp,让我们想象一下,我有两个英文文本是由同一个人写的。 是否可以应用一些马尔可夫链算法来分析每种方法:根据统计数据创建某种指纹,并比较从不同文本中获得的指纹? 比如说,我们有一个有100篇课文的图书馆。有些人写了第一篇文章,有些人也写了第二篇,我们需要通过分析他/她的写作风格来猜测是哪一篇。 有没有已知的算法可以做到这一点?这里可以应用马尔可夫链吗?您可以从访问网站开始。有大量关于分类和聚类的文献。基本上,您希望运行一个聚类算法,然后希望由“哪个作者”决定聚类。这绝对是可能的,事实上,通过文本或文本

让我们想象一下,我有两个英文文本是由同一个人写的。 是否可以应用一些马尔可夫链算法来分析每种方法:根据统计数据创建某种指纹,并比较从不同文本中获得的指纹? 比如说,我们有一个有100篇课文的图书馆。有些人写了第一篇文章,有些人也写了第二篇,我们需要通过分析他/她的写作风格来猜测是哪一篇。
有没有已知的算法可以做到这一点?这里可以应用马尔可夫链吗?

您可以从访问网站开始。有大量关于分类和聚类的文献。基本上,您希望运行一个聚类算法,然后希望由“哪个作者”决定聚类。

这绝对是可能的,事实上,通过文本或文本的某一部分成功识别作者的记录令人印象深刻

一些有代表性的研究(警告:链接到pdf文件):

为了帮助您进行网络搜索,这一学科通常被称为茎秆测定术(偶尔也被称为茎秆遗传学)

因此,我认为两个最重要的问题是:哪些分类器对这一目的有用,哪些数据被提供给分类器

我仍然感到惊讶的是,实现非常准确的分类所需的数据是如此之少。通常数据只是一个词频表。(在线提供词频列表目录。)

例如,一个广泛应用于机器学习的数据集,可以从网络上的许多地方获得,它由四位作者的数据组成:莎士比亚、简·奥斯汀、杰克·伦敦、米尔顿。这些作品被分为872篇(大致相当于章节),换句话说,四位作者每人大约有220篇不同的实质性文本;这些片段中的每一个都成为数据集中的单个数据点。接下来对每一篇文章进行词频扫描,将70个最常见的单词用于研究,其余的频率扫描结果被丢弃。下面是70个单词列表中的前20个

['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
  'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from'] 
然后,每个数据点只是872章中每个章节70个单词中每个单词的计数

[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
每个数据点都是作者文学指纹的一个实例

每个数据点中的最后一项是一个整数(1-4),表示文本所属的四位作者之一

最近,我通过一个简单的无监督ML算法运行了这个数据集;结果非常好——几乎完全分离了这四个类,您可以在我之前的Q-on-StackOverflow中看到这一点,Q-on-StackOverflow涉及到一般使用ML的文本分类,而不是作者识别


那么,还使用了哪些其他算法呢?显然,大多数有监督类别的机器学习算法都能成功地解决这类数据。其中,多层感知器(MLP,又名神经网络)经常被使用(这是一项经常被引用的研究)。

+1对于Apach Mahout参考,一个著名的例子是,谁写的?见附注19和20。我觉得这个问题不应该结束。2017年,Kaggle举办了一场竞赛:令人毛骨悚然的作者识别,这表明了这个问题的相关性。那么,是否有可能通过分析公共SNS文本来追踪匿名文章的作者?@FRIdSUN不确定你所说的“SNS”是什么意思,我认为这是一个打字错误,而你指的是短信。如果是这样的话,我的答案是否定的。原因是短信有自己的(非正式的)风格、语法和使用规则,而这些规则是可以接受的。有效地隐藏作者的文学散文风格。因此,例如,停止词频率,通常是作者风格的强烈签名(即,在许多作者的文本中保持一致)可能对SMS没有任何用处——例如,SMS文本很少有任何停止词(“a”、“a”、“the”),为了简洁起见,经常使用符号而不是停止词(&“for”and),等等。SNS=社交网络服务。我的意思是,如果有可能分析Facebook的帖子、推特推特、媒体文章等等来做这样的识别。如果不太清楚的话,不缩写的主要原因是什么。