Nlp 删除垃圾句子

Nlp 删除垃圾句子,nlp,Nlp,我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺 我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。 我想知道什么方法最适合这项任务 我的想法是: •使用tf idf和word2vec从所有句子中创建向量。之后,我们可以进行某种异常检测,例如查找和删除与大多数其他向量高度偏离的向量 •垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器 •包装一些适当句子必须包含的词性标签模式。例如,任何好的句子都必须包括名词+动词。或者我

我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺

我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。 我想知道什么方法最适合这项任务

我的想法是:

•使用tf idf和word2vec从所有句子中创建向量。之后,我们可以进行某种异常检测,例如查找和删除与大多数其他向量高度偏离的向量

•垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器

•包装一些适当句子必须包含的词性标签模式。例如,任何好的句子都必须包括名词+动词。或者我们可以使用spacy的依赖标记

示例

我想保留的句子示例:

发送后,您将获得ups追踪号码,这是免费的

垃圾句示例:

金德公关公司只需再次输入,时钟驱动贝瑟尔

另一句废话:

你穿上它说这是关于那个的


我想尝试的一件事是将其视为一个分类问题(垃圾与非垃圾)。您可以基于标记集训练模型(即,您需要标记数据集的某个子集),然后对语料库的其余部分进行分类。 您可以使用一个预先训练好的语言模型,比如Bert,并使用标记为set的方法对其进行微调,如这里所示()

使用这样的语言模型的优点是,您不必太担心语言(预)处理,这意味着您不必获取词性或句法结构

关于您的想法的评论:

  • tf idf和word2vec异常检测:这取决于语料库中垃圾句的比例。如果他们超过15%,我认为他们可能没有那么不正常。另外,我假设你的垃圾句子来自嘈杂的自动语音到文本转录。我不确定这些垃圾句子的部分被正确转录的程度,以及正确转录的部分对异常程度的影响

  • 如果你指的是已经存在的垃圾邮件过滤器,这些过滤器都是针对垃圾邮件进行培训的,那么我猜垃圾邮件与成绩单的垃圾内容是完全不同的

  • 使用POS标记或语法结构手动创建有效句子的规则: 这对我来说似乎也有点乏味,而且我也不确定你是否会发现所有的垃圾。例如,在您的垃圾示例中,我并不觉得语法结构太不寻常,例如,“clock drives bethel”可能被标记为,这是一个非常常见的标记序列。这种情况下的垃圾来自词语的含义