Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/opencv/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 如何创建在不同语言的文本中检测年龄的功能?_Machine Learning_Nlp_Artificial Intelligence_Text Mining - Fatal编程技术网

Machine learning 如何创建在不同语言的文本中检测年龄的功能?

Machine learning 如何创建在不同语言的文本中检测年龄的功能?,machine-learning,nlp,artificial-intelligence,text-mining,Machine Learning,Nlp,Artificial Intelligence,Text Mining,我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能,如果这是可能的类别:18-24,25-34,35-49和50 xx”,我只有推文作为语料库。我已经尝试过使用所有推文,但性能非常低(0.66)你知道如何完成这项任务吗?提前谢谢。因为这仍然是一项研究任务,我建议你提供一些科学论文的链接(链接和下面的摘要大多摘自-不幸的是,俄语版的“相关工作”部分,所以我编辑了一点谷歌翻译) 那么,看看这些作品(以年份为标志): 总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:

我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能,如果这是可能的类别:
18-24
25-34
35-49
50 xx”
,我只有推文作为语料库。我已经尝试过使用所有推文,但性能非常低(0.66)你知道如何完成这项任务吗?提前谢谢。

因为这仍然是一项研究任务,我建议你提供一些科学论文的链接(链接和下面的摘要大多摘自-不幸的是,俄语版的“相关工作”部分,所以我编辑了一点谷歌翻译)

那么,看看这些作品(以年份为标志):

总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:

  • 文本特征:n-克超过单词和字符
  • 文体特征:词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等
  • 社交网络功能:用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

  • 由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译)

    那么,看看这些作品(以年份为标志):

    总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:

  • 文本特征:n-克超过单词和字符
  • 文体特征:词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等
  • 社交网络功能:用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

  • 由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译)

    那么,看看这些作品(以年份为标志):

    总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:

  • 文本特征:n-克超过单词和字符
  • 文体特征:词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等
  • 社交网络功能:用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

  • 由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译)

    那么,看看这些作品(以年份为标志):

    总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:

  • 文本特征:n-克超过单词和字符
  • 文体特征:词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等
  • 社交网络功能:用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数


  • 你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想有更多的功能,但有一些模式吗?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想是与mo有关re features但是一些模式呢?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想有了更多的功能,但是一些模式呢?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道吗如何推进这一点?我想有更多的功能,但一些模式呢?谢谢你的反馈和参考。事实上,我已经准备好了这方面的基线,问题是它的性能低(0.5104%)准确度。我们正在使用RF,它提供了更多的功能,这将提高性能。你知道如何推动这一性能吗?我在想一些简单的英语正则表达式。你认为这是可能的吗?只是一些想法:1)你确定它是不合适的,而不是不合适的-你检查过火车数据的性能吗?2)考虑一下查看每个类的性能-可能您的数据没有很好地分离。如果您不受这些范围的限制,调整可能有助于3)优化超参数(树的数量)?我的意思是,性能不佳的原因可能是过度拟合:你的分类器很好地预测了列车数据,但没有进行测试。看看这篇完美的论文:我仍然不明白正则表达式在这里做什么?是的,像“文本中副词的计数”这样的功能可能很有用-这是上面列表中的文体功能。感谢反馈和参考事实上,我已经准备好了这方面的基线,问题是它的性能很低(0.5104%)准确度。我们正在使用RF,它有更多的功能,这将提高性能。你知道如何推动这一性能吗?我在想一些简单的英语正则表达式。你认为这是可能的吗?只是一些想法:1)你确定它是不合适的,而不是不合适的-你检查过性能了吗