Machine learning 如何创建在不同语言的文本中检测年龄的功能?
我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能,如果这是可能的类别:Machine learning 如何创建在不同语言的文本中检测年龄的功能?,machine-learning,nlp,artificial-intelligence,text-mining,Machine Learning,Nlp,Artificial Intelligence,Text Mining,我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能,如果这是可能的类别:18-24,25-34,35-49和50 xx”,我只有推文作为语料库。我已经尝试过使用所有推文,但性能非常低(0.66)你知道如何完成这项任务吗?提前谢谢。因为这仍然是一项研究任务,我建议你提供一些科学论文的链接(链接和下面的摘要大多摘自-不幸的是,俄语版的“相关工作”部分,所以我编辑了一点谷歌翻译) 那么,看看这些作品(以年份为标志): 总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:
18-24
,25-34
,35-49
和50 xx”
,我只有推文作为语料库。我已经尝试过使用所有推文,但性能非常低(0.66)你知道如何完成这项任务吗?提前谢谢。因为这仍然是一项研究任务,我建议你提供一些科学论文的链接(链接和下面的摘要大多摘自-不幸的是,俄语版的“相关工作”部分,所以我编辑了一点谷歌翻译)
那么,看看这些作品(以年份为标志):
总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:
由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译) 那么,看看这些作品(以年份为标志): 总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:
由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译) 那么,看看这些作品(以年份为标志): 总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:
由于这仍然是一项研究任务,我建议提供一些科学论文的链接(链接和以下摘要大多取自《科学》的“相关工作”部分——不幸的是,是俄语,所以我编辑了一点谷歌翻译) 那么,看看这些作品(以年份为标志): 总之:您应该查找或创建标记语料库,并使用具有以下功能的监督机器学习:
你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想有更多的功能,但有一些模式吗?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想是与mo有关re features但是一些模式呢?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道如何推动这一点吗?我想有了更多的功能,但是一些模式呢?你已经有了与每条推文相关的年龄了吗?是的。问题是低性能0.51%你知道吗如何推进这一点?我想有更多的功能,但一些模式呢?谢谢你的反馈和参考。事实上,我已经准备好了这方面的基线,问题是它的性能低(0.5104%)准确度。我们正在使用RF,它提供了更多的功能,这将提高性能。你知道如何推动这一性能吗?我在想一些简单的英语正则表达式。你认为这是可能的吗?只是一些想法:1)你确定它是不合适的,而不是不合适的-你检查过火车数据的性能吗?2)考虑一下查看每个类的性能-可能您的数据没有很好地分离。如果您不受这些范围的限制,调整可能有助于3)优化超参数(树的数量)?我的意思是,性能不佳的原因可能是过度拟合:你的分类器很好地预测了列车数据,但没有进行测试。看看这篇完美的论文:我仍然不明白正则表达式在这里做什么?是的,像“文本中副词的计数”这样的功能可能很有用-这是上面列表中的文体功能。感谢反馈和参考事实上,我已经准备好了这方面的基线,问题是它的性能很低(0.5104%)准确度。我们正在使用RF,它有更多的功能,这将提高性能。你知道如何推动这一性能吗?我在想一些简单的英语正则表达式。你认为这是可能的吗?只是一些想法:1)你确定它是不合适的,而不是不合适的-你检查过性能了吗