Machine learning 如何从大型数据集中删除不相关的文本数据_Machine Learning_Text_Nlp_Data Cleaning

Machine learning 如何从大型数据集中删除不相关的文本数据

machine-learning text nlp

Machine learning 如何从大型数据集中删除不相关的文本数据,machine-learning,text,nlp,data-cleaning,Machine Learning,Text,Nlp,Data Cleaning,我正在从事一个ML项目，其中的数据来自社交媒体，有关数据的主题应该是新冠病毒下的抑郁症。然而，当我阅读检索到的一些数据时，我注意到，尽管文本（约1-5%）提到了一些与新冠病毒相关的关键词，但这些文本的上下文实际上并不是关于流感大流行的，它们讲述的是一个生活故事（从5岁到27岁），而不是新冠病毒如何影响他们的生活。我想使用和寻找的数据是一些文本，告诉人们新冠病毒如何使抑郁症恶化，而不是什么。是否有一种通用的方法来清理那些上下文与新冠病毒无关（或异常值）的无关数据？或者可以将它们保留在数据集中

我正在从事一个ML项目，其中的数据来自社交媒体，有关数据的主题应该是新冠病毒下的抑郁症。然而，当我阅读检索到的一些数据时，我注意到，尽管文本（约1-5%）提到了一些与新冠病毒相关的关键词，但这些文本的上下文实际上并不是关于流感大流行的，它们讲述的是一个生活故事（从5岁到27岁），而不是新冠病毒如何影响他们的生活。我想使用和寻找的数据是一些文本，告诉人们新冠病毒如何使抑郁症恶化，而不是什么。是否有一种通用的方法来清理那些上下文与新冠病毒无关（或异常值）的无关数据？

或者可以将它们保留在数据集中，因为它们只占1-5%？

我想你想要的是主题建模，或者文本排名算法，或者当然是类似的东西。查看下面的链接，了解如何使用此功能

bag of words模型有许多弱点，特别是当应用于自然语言处理任务时，TextRank等图形排序算法能够解决这些弱点。TextRank能够合并单词序列信息。单词袋只是指一个矩阵，其中行是文档，列是单词。将文档与矩阵中的单词匹配的值可以是文档中单词出现的次数，也可以使用tf idf。然后将单词包矩阵提供给机器学习算法。使用字数统计或tf idf，我们只能识别文档中的关键单字术语

另外，请参见下面的链接

您可以在下面的链接中找到示例中使用的附带示例数据