Machine learning 如何从大型数据集中删除不相关的文本数据

Machine learning 如何从大型数据集中删除不相关的文本数据,machine-learning,text,nlp,data-cleaning,Machine Learning,Text,Nlp,Data Cleaning,我正在从事一个ML项目,其中的数据来自社交媒体,有关数据的主题应该是新冠病毒下的抑郁症。然而,当我阅读检索到的一些数据时,我注意到,尽管文本(约1-5%)提到了一些与新冠病毒相关的关键词,但这些文本的上下文实际上并不是关于流感大流行的,它们讲述的是一个生活故事(从5岁到27岁),而不是新冠病毒如何影响他们的生活。 我想使用和寻找的数据是一些文本,告诉人们新冠病毒如何使抑郁症恶化,而不是什么。 是否有一种通用的方法来清理那些上下文与新冠病毒无关(或异常值)的无关数据? 或者可以将它们保留在数据集中

我正在从事一个ML项目,其中的数据来自社交媒体,有关数据的主题应该是新冠病毒下的抑郁症。然而,当我阅读检索到的一些数据时,我注意到,尽管文本(约1-5%)提到了一些与新冠病毒相关的关键词,但这些文本的上下文实际上并不是关于流感大流行的,它们讲述的是一个生活故事(从5岁到27岁),而不是新冠病毒如何影响他们的生活。 我想使用和寻找的数据是一些文本,告诉人们新冠病毒如何使抑郁症恶化,而不是什么。 是否有一种通用的方法来清理那些上下文与新冠病毒无关(或异常值)的无关数据?
或者可以将它们保留在数据集中,因为它们只占1-5%?

我想你想要的是主题建模,或者文本排名算法,或者当然是类似的东西。查看下面的链接,了解如何使用此功能

bag of words模型有许多弱点,特别是当应用于自然语言处理任务时,TextRank等图形排序算法能够解决这些弱点。TextRank能够合并单词序列信息。单词袋只是指一个矩阵,其中行是文档,列是单词。将文档与矩阵中的单词匹配的值可以是文档中单词出现的次数,也可以使用tf idf。然后将单词包矩阵提供给机器学习算法。使用字数统计或tf idf,我们只能识别文档中的关键单字术语

另外,请参见下面的链接

您可以在下面的链接中找到示例中使用的附带示例数据