Machine learning 如何创建在不同语言的文本中检测年龄的功能？_Machine Learning_Nlp_Artificial Intelligence_Text Mining

Machine learning 如何创建在不同语言的文本中检测年龄的功能？

machine-learning nlp artificial-intelligence

Machine learning 如何创建在不同语言的文本中检测年龄的功能？,machine-learning,nlp,artificial-intelligence,text-mining,Machine Learning,Nlp,Artificial Intelligence,Text Mining,我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能，如果这是可能的类别：18-24，25-34，35-49和50 xx”，我只有推文作为语料库。我已经尝试过使用所有推文，但性能非常低（0.66）你知道如何完成这项任务吗？提前谢谢。因为这仍然是一项研究任务，我建议你提供一些科学论文的链接（链接和下面的摘要大多摘自-不幸的是，俄语版的“相关工作”部分，所以我编辑了一点谷歌翻译）那么，看看这些作品（以年份为标志）：总之：您应该查找或创建标记语料库，并使用具有以下功能的监督机器学习：

我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能，如果这是可能的类别：

18-24

，

25-34

，

35-49

和

50 xx”

，我只有推文作为语料库。我已经尝试过使用所有推文，但性能非常低（0.66）你知道如何完成这项任务吗？提前谢谢。

因为这仍然是一项研究任务，我建议你提供一些科学论文的链接（链接和下面的摘要大多摘自-不幸的是，俄语版的“相关工作”部分，所以我编辑了一点谷歌翻译）

那么，看看这些作品（以年份为标志）：

总之：您应该查找或创建标记语料库，并使用具有以下功能的监督机器学习：

文本特征：n-克超过单词和字符

文体特征：词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等

社交网络功能：用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

由于这仍然是一项研究任务，我建议提供一些科学论文的链接（链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是，是俄语，所以我编辑了一点谷歌翻译）

那么，看看这些作品（以年份为标志）：

总之：您应该查找或创建标记语料库，并使用具有以下功能的监督机器学习：

文本特征：n-克超过单词和字符

文体特征：词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等

社交网络功能：用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

那么，看看这些作品（以年份为标志）：

总之：您应该查找或创建标记语料库，并使用具有以下功能的监督机器学习：

文本特征：n-克超过单词和字符

文体特征：词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等

社交网络功能：用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

那么，看看这些作品（以年份为标志）：

总之：您应该查找或创建标记语料库，并使用具有以下功能的监督机器学习：

文本特征：n-克超过单词和字符

文体特征：词类、俚语、平均句子长度、标点符号、首字母缩略词、表情符号等

社交网络功能：用户的好友数、用户页面上显示的帖子数、帖子总数、用户帖子的平均评论数

你已经有了与每条推文相关的年龄了吗？是的。问题是低性能0.51%你知道如何推动这一点吗？我想有更多的功能，但有一些模式吗？你已经有了与每条推文相关的年龄了吗？是的。问题是低性能0.51%你知道如何推动这一点吗？我想是与mo有关re features但是一些模式呢？你已经有了与每条推文相关的年龄了吗？是的。问题是低性能0.51%你知道如何推动这一点吗？我想有了更多的功能，但是一些模式呢？你已经有了与每条推文相关的年龄了吗？是的。问题是低性能0.51%你知道吗如何推进这一点？我想有更多的功能，但一些模式呢？谢谢你的反馈和参考。事实上，我已经准备好了这方面的基线，问题是它的性能低（0.5104%）准确度。我们正在使用RF，它提供了更多的功能，这将提高性能。你知道如何推动这一性能吗？我在想一些简单的英语正则表达式。你认为这是可能的吗？只是一些想法：1）你确定它是不合适的，而不是不合适的-你检查过火车数据的性能吗？2）考虑一下查看每个类的性能-可能您的数据没有很好地分离。如果您不受这些范围的限制，调整可能有助于3）优化超参数（树的数量）？我的意思是，性能不佳的原因可能是过度拟合：你的分类器很好地预测了列车数据，但没有进行测试。看看这篇完美的论文：我仍然不明白正则表达式在这里做什么？是的，像“文本中副词的计数”这样的功能可能很有用-这是上面列表中的文体功能。感谢反馈和参考事实上，我已经准备好了这方面的基线，问题是它的性能很低（0.5104%）准确度。我们正在使用RF，它有更多的功能，这将提高性能。你知道如何推动这一性能吗？我在想一些简单的英语正则表达式。你认为这是可能的吗？只是一些想法：1）你确定它是不合适的，而不是不合适的-你检查过性能了吗