Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
String 是否有开源软件可以分析字符串并猜测作者的性别?_String_File Io_Nlp - Fatal编程技术网

String 是否有开源软件可以分析字符串并猜测作者的性别?

String 是否有开源软件可以分析字符串并猜测作者的性别?,string,file-io,nlp,String,File Io,Nlp,除了封闭源代码的web应用程序,我找不到其他任何东西。是否有任何正在进行的项目?我对在我正在开发和参与的项目中使用该软件很感兴趣。你会遇到一个问题:猜测只是猜测而已。没有哪怕是一点点精确的方法可以严格地从作者的作品中分辨出作者的性别,你最多只能得到一个糟糕的估计。嘿,这可能是可以做到的。你需要从男作家和女作家那里拿一大堆书,把句子拉出来,把它们混合起来,然后把它们输入某种神经网络进行训练。老实说,我很想看看是否有人能成功。哦,我只是好奇为什么需要这样一个程序:)像“性别精灵”这样的应用程序可以在

除了封闭源代码的web应用程序,我找不到其他任何东西。是否有任何正在进行的项目?我对在我正在开发和参与的项目中使用该软件很感兴趣。

你会遇到一个问题:猜测只是猜测而已。没有哪怕是一点点精确的方法可以严格地从作者的作品中分辨出作者的性别,你最多只能得到一个糟糕的估计。

嘿,这可能是可以做到的。你需要从男作家和女作家那里拿一大堆书,把句子拉出来,把它们混合起来,然后把它们输入某种神经网络进行训练。老实说,我很想看看是否有人能成功。哦,我只是好奇为什么需要这样一个程序:)

像“性别精灵”这样的应用程序可以在合理的成功程度内运行:(尤其是对于较长的文本)

它不需要完全成功。我会有大量的数据要处理,而且大部分只是为了好玩

如果有人知道什么,请分享


理查德

斯蒂芬·贝克(Stephen Baker)的书中有一节是关于这一点的,数字。有一些公司致力于为营销目的对博客圈进行计算分析,他们的算法中有一部分用于确定作者是男性还是女性。我建议读一下这个


我不相信像这样的工作是开源的,但是你可以自己构造一个压缩版本。然而,由于没有分析大量数据来编写此程序,我认为它不会非常准确。

有一些潜在语义索引/分析的开源实现。如果你有一套与你的应用程序相关的男性和女性写作的良好训练集,它可能能够足够准确地进行分类,从而变得有用。

因为你假设了两个类别,几乎任何分类器都可以。一些建议:

  • 朴素贝叶斯
  • 支持向量机
正如一位早期的评论者所说,从已知的文本样本(应该有很多……报纸语料库可能很好)开始,根据一些合理的属性(可能是存在/不存在或单词或单词对)进行训练和分类

这个应该(相对)容易


如果您使用的是python,那么即使是像自然语言工具包(cf:nltk.org)和他们的书这样简单的东西,也会让您在这方面有很多收获

这是另一个声称这样做的网站:。然而,它依赖于另一个名为uClassify.com的网站,在我写这篇文章时,这个网站已经关闭了。他们在底部有一个问题的联系链接


这听起来像是一个学术机构:“在我们的实验室里,它似乎工作得很好。”

这里有一整套两级分析器,可以进行调整垃圾邮件拦截和识别软件。它仍然要求用户获得男性书面文本(被视为垃圾邮件)和女性文本(被视为火腿,或相反),但很多都应该可以工作。

你可以在这里尝试文本字符串的性别分类器:

几年前就写过这方面的博客;有关建议,请参见此处的评论…

我认为大多数人误解了你的问题。你想知道,给定一段文字,是约翰还是简写的。不管约翰是男孩还是女孩。可能需要澄清。+1对于一个有趣的问题,我从来没有想到过其他原因:猜测用户的人口统计数据。有了一个好的程序,你可能只需要看一下编写的示例就可以猜出用户的性别、年龄和地理区域。如果你想了解用户的人口统计信息,就去问问吧!如果他们有足够的心思去写他们必须登录的内容(帖子、评论等),只需在注册时获取这些信息。任何人都可以申请“实验室”。这意味着要在一台计算机上进行测试。@Tim:听起来很学术。我可以试着联系他们,试过了。他们说我的页面可能是一个男性写的,这是正确的。他们可以点击按钮来判断是对还是错,结果几乎是偶然的。要么他们做得不好,要么人们不诚实地点击(或者两者兼而有之)。我知道你不可能完全准确,而这样的功能只能用于娱乐。嗯,性别精灵似乎总是把我写的文本归类为女性:-/