Machine learning 全名性别检测

Machine learning 全名性别检测,machine-learning,nlp,Machine Learning,Nlp,我想创建一个基于全名检测性别的模型。 我有两本男女名字的字典。我想开发一个模型来对以前看不见的名字进行分类 我需要在NER名称实体识别过程后确定性别。这将提供具有以下任一特征的个人实体: 全名约翰·特拉沃尔塔 只说出约翰的名字 只姓特拉沃尔塔 我只能在名字上做男性对女性的决定。该模型只需要处理姓氏,将其分类为无性别 我知道姓氏可能会吵闹,但我必须处理它们,因为它们可能是输入的一部分。首先,预处理数据:在全名输入中,只保留名称,见下文。也将此应用于未知输入 我建议你训练一个多类SVM。你已经知道这

我想创建一个基于全名检测性别的模型。 我有两本男女名字的字典。我想开发一个模型来对以前看不见的名字进行分类

我需要在NER名称实体识别过程后确定性别。这将提供具有以下任一特征的个人实体:

全名约翰·特拉沃尔塔 只说出约翰的名字 只姓特拉沃尔塔 我只能在名字上做男性对女性的决定。该模型只需要处理姓氏,将其分类为无性别


我知道姓氏可能会吵闹,但我必须处理它们,因为它们可能是输入的一部分。

首先,预处理数据:在全名输入中,只保留名称,见下文。也将此应用于未知输入

我建议你训练一个多类SVM。你已经知道这三门课了。编制以下培训数据:

无性别:女孩和男孩名单上的名字 女:只有女孩名单上的名字 男:只有男孩名单上的名字 无性别:已知姓氏 无性别:非姓名字符串 基本上,你训练它来识别女性、男性和其他一切

预处理

由于名称格式不同,这会给您带来一些麻烦。您可能在使用复合名称时遇到问题,例如

Bobby Jo             male name with female modifier
van der Waal         compound surname with male-looking prefix
St. John             surname with gendered primary
Haley-Christopher    hyphenated surname, genedered

如果您对输入进行预处理,您可能会很难在Billy Jean St.John或Marie Therese von Klaus中找到正确的分区。

好的,您已经被分配了一个任务。您遇到的具体问题是什么?由于这类问题在现成的文献、在线课程、视频等中得到了很好的解决,因此我不认为这其中存在堆栈溢出问题。@Prune我不知道应该采取什么方法来避免姓氏的噪音。我没有找到一篇论文将姓氏包含在模型中。例如,在这种情况下,我应该使用什么分类算法。为什么要在模型中包含姓氏?当然它会发送给你,但是你不能忽略它吗?我怀疑姓氏是否会告诉你们性别。还有,你有没有其他的句子上下文,或者只是名字?@Dail:当你知道某个特征是纯粹的噪音时,你根本不把它包括在训练中。简单地不要把它包含在考虑的特征中;这通常是训练函数的一个参数。谢谢你的回答。这似乎是一个很好的方法,我只有两个问题:1.使用非名称字符串你指的是语言的全部词典吗?2我不明白如何只在预处理步骤中保留名称。在意大利没有复合名称,它们非常罕见。如果输入的是一个正常的全名,比如John Travolta,我应该如何删除姓氏?1不是所有的;也许和你的名字一样多的非名字。我可能会使用一系列常见的名词和动词,以及一些随机字母串。这是为了帮助模型建立一个更强大的想法,其他一切。例如,我想让它知道KNL微处理器没有性别。2删除输入处理层中的姓氏。在空格处拆分字符串,只保留第一个单词。这是另一个问题。姓名可以在姓氏的左边或右边。我不能简单地拆分字符串来获得第一个令牌。好的。在这种情况下,可能还有另一种攻击:增加您的单名训练数据,以便所有内容都是全名记录。制作这些元组,使用John和John作为训练数据。这样,我想你会得到一个更强的匹配两个训练案例之一。好的,我应该使用所有的组合吗?我指的是男性+所有姓氏和女性+所有姓氏的组合