按性别对Twitter文本进行分类

按性别对Twitter文本进行分类,twitter,machine-learning,classification,Twitter,Machine Learning,Classification,我有几百条tweet可供我使用,我希望通过每个twitter用户获得真实姓名并查看至少2条tweet,将其分为男性和女性。我已经为从个人资料中获取每个人的真实姓名编制了程序,现在我正在对他们的推文文本进行分类,以试图更有力地肯定用户是m还是F。我在网上查找和搜索了文本分类的示例,但不确定从何处开始。我在这个链接上还发现了一些非常有用的数据 任何关于如何将推文文本分类为男性或女性的建议都将不胜感激!我有点撞到砖墙了 我没有任何其他文本数据集,肯定是由男性或女性编写的,以帮助训练分类器 这对你来说是

我有几百条tweet可供我使用,我希望通过每个twitter用户获得真实姓名并查看至少2条tweet,将其分为男性和女性。我已经为从个人资料中获取每个人的真实姓名编制了程序,现在我正在对他们的推文文本进行分类,以试图更有力地肯定用户是m还是F。我在网上查找和搜索了文本分类的示例,但不确定从何处开始。我在这个链接上还发现了一些非常有用的数据 任何关于如何将推文文本分类为男性或女性的建议都将不胜感激!我有点撞到砖墙了

我没有任何其他文本数据集,肯定是由男性或女性编写的,以帮助训练分类器


这对你来说是个障碍。或者您需要使用这样的数据集执行监督学习,例如使用感知器学习器;或者,您需要执行无监督学习,例如k-means聚类,并尝试找到可以(任意)声明为男性或女性信号的聚类。在实践中,用无监督的方法区分性别几乎是不可能的,至少在没有其他现有信息、先验知识或特征图的情况下是不可能的。

你需要一个培训集,这是一个显而易见的说法。没有别的办法了。正如你在上一个问题中已经提到的,你可以手工创建它们,也可以在半监督模式下,使用外部规则(如实名)创建训练集

最简单的方法是使用已经存在的tweets数据,用性别标签来训练分类器,我建议:

其他资源:
博客性别:

您可能还想看看这个RESTAPI,它根据名字返回性别:

您可以看看我的python性别检测项目


它试图通过查看作者的姓名和/或示例文本(例如推文)来检测作者的性别。

是@Bogdan Vasilescu编写的Python脚本,它试图从姓名(主要是名字)和位置(国家)推断一个人的性别。该工具将来自的信息与来自
gender.c
,”的关于小人物、l33t语音和数据的信息相结合

一个k-均值或任何其他聚类将性别分布的概率接近于0,这不是一个好的建议。这只会发现任何数据分离,说话人的性别是非常微妙的事情,必须经过仔细的训练/设计,聚类不会起作用。@lejlot同意,考虑到数据的性质,这可能是一个长期问题。好吧,让我高兴的是,我找到了一些可能对我有用的文件。我编辑了我原来的帖子,把它包括在上面。它有估计男性或女性的术语和用户id。非常感谢您为我找到这个数据集!我衷心感谢。我一定会看一看。你能提供来源和更多关于博客性别数据集的细节吗?我想把它作为一个研究项目的一部分,但我需要更多地了解它。收集的时间/方式等。无所谓,我找到了来源。对任何感兴趣的人来说,这里描述/使用的是:很酷的概念,但经过测试后,这个名称还可以,但仅仅使用一个文本似乎非常不准确我是两个孩子的母亲“一个也不给”我是三个孩子的母亲“给”了“男”;“我是一个有五个孩子的母亲我喜欢在商场购物“无”,甚至“我是一名女医生”也会“男”。是的,我不认为它的准确度达到了预期水平,主要是因为它需要用英文文本进行训练。听起来不错,你能简单地告诉我如何使用你的软件包中现有的微博数据集进行训练吗?你可以使用这个脚本