Machine learning 作者能否'；“独一无二”；“文体”；是否用于确定他/她是文本作者？_Machine Learning_Data Mining_Markov Chains_Nlp

Machine learning 作者能否'；“独一无二”；“文体”；是否用于确定他/她是文本作者？

machine-learning nlp

Machine learning 作者能否'；“独一无二”；“文体”；是否用于确定他/她是文本作者？,machine-learning,data-mining,markov-chains,nlp,Machine Learning,Data Mining,Markov Chains,Nlp,让我们想象一下，我有两个英文文本是由同一个人写的。是否可以应用一些马尔可夫链算法来分析每种方法：根据统计数据创建某种指纹，并比较从不同文本中获得的指纹？比如说，我们有一个有100篇课文的图书馆。有些人写了第一篇文章，有些人也写了第二篇，我们需要通过分析他/她的写作风格来猜测是哪一篇。有没有已知的算法可以做到这一点？这里可以应用马尔可夫链吗？您可以从访问网站开始。有大量关于分类和聚类的文献。基本上，您希望运行一个聚类算法，然后希望由“哪个作者”决定聚类。这绝对是可能的，事实上，通过文本或文本

让我们想象一下，我有两个英文文本是由同一个人写的。是否可以应用一些马尔可夫链算法来分析每种方法：根据统计数据创建某种指纹，并比较从不同文本中获得的指纹？比如说，我们有一个有100篇课文的图书馆。有些人写了第一篇文章，有些人也写了第二篇，我们需要通过分析他/她的写作风格来猜测是哪一篇。

有没有已知的算法可以做到这一点？这里可以应用马尔可夫链吗？

您可以从访问网站开始。有大量关于分类和聚类的文献。基本上，您希望运行一个聚类算法，然后希望由“哪个作者”决定聚类。

这绝对是可能的，事实上，通过文本或文本的某一部分成功识别作者的记录令人印象深刻

一些有代表性的研究（警告：链接到pdf文件）：

为了帮助您进行网络搜索，这一学科通常被称为茎秆测定术（偶尔也被称为茎秆遗传学）
因此，我认为两个最重要的问题是：哪些分类器对这一目的有用，哪些数据被提供给分类器
我仍然感到惊讶的是，实现非常准确的分类所需的数据是如此之少。通常数据只是一个词频表。（在线提供词频列表目录。）
例如，一个广泛应用于机器学习的数据集，可以从网络上的许多地方获得，它由四位作者的数据组成：莎士比亚、简·奥斯汀、杰克·伦敦、米尔顿。这些作品被分为872篇（大致相当于章节），换句话说，四位作者每人大约有220篇不同的实质性文本；这些片段中的每一个都成为数据集中的单个数据点。接下来对每一篇文章进行词频扫描，将70个最常见的单词用于研究，其余的频率扫描结果被丢弃。下面是70个单词列表中的前20个

['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been', 'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']
然后，每个数据点只是872章中每个章节70个单词中每个单词的计数

[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
每个数据点都是作者文学指纹的一个实例
每个数据点中的最后一项是一个整数（1-4），表示文本所属的四位作者之一
最近，我通过一个简单的无监督ML算法运行了这个数据集；结果非常好——几乎完全分离了这四个类，您可以在我之前的Q-on-StackOverflow中看到这一点，Q-on-StackOverflow涉及到一般使用ML的文本分类，而不是作者识别

那么，还使用了哪些其他算法呢？显然，大多数有监督类别的机器学习算法都能成功地解决这类数据。其中，多层感知器（MLP，又名神经网络）经常被使用（这是一项经常被引用的研究）。
+1对于Apach Mahout参考，一个著名的例子是，谁写的？见附注19和20。我觉得这个问题不应该结束。2017年，Kaggle举办了一场竞赛：令人毛骨悚然的作者识别，这表明了这个问题的相关性。那么，是否有可能通过分析公共SNS文本来追踪匿名文章的作者？@FRIdSUN不确定你所说的“SNS”是什么意思，我认为这是一个打字错误，而你指的是短信。如果是这样的话，我的答案是否定的。原因是短信有自己的（非正式的）风格、语法和使用规则，而这些规则是可以接受的。有效地隐藏作者的文学散文风格。因此，例如，停止词频率，通常是作者风格的强烈签名（即，在许多作者的文本中保持一致）可能对SMS没有任何用处——例如，SMS文本很少有任何停止词（“a”、“a”、“the”），为了简洁起见，经常使用符号而不是停止词（&“for”and），等等。SNS=社交网络服务。我的意思是，如果有可能分析Facebook的帖子、推特推特、媒体文章等等来做这样的识别。如果不太清楚的话，不缩写的主要原因是什么。