Nlp 删除垃圾句子
我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺 我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。 我想知道什么方法最适合这项任务 我的想法是: •使用tf idf和word2vec从所有句子中创建向量。之后,我们可以进行某种异常检测,例如查找和删除与大多数其他向量高度偏离的向量 •垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器 •包装一些适当句子必须包含的词性标签模式。例如,任何好的句子都必须包括名词+动词。或者我们可以使用spacy的依赖标记 示例 我想保留的句子示例: 发送后,您将获得ups追踪号码,这是免费的 垃圾句示例: 金德公关公司只需再次输入,时钟驱动贝瑟尔 另一句废话: 你穿上它说这是关于那个的Nlp 删除垃圾句子,nlp,Nlp,我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺 我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。 我想知道什么方法最适合这项任务 我的想法是: •使用tf idf和word2vec从所有句子中创建向量。之后,我们可以进行某种异常检测,例如查找和删除与大多数其他向量高度偏离的向量 •垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器 •包装一些适当句子必须包含的词性标签模式。例如,任何好的句子都必须包括名词+动词。或者我
我想尝试的一件事是将其视为一个分类问题(垃圾与非垃圾)。您可以基于标记集训练模型(即,您需要标记数据集的某个子集),然后对语料库的其余部分进行分类。 您可以使用一个预先训练好的语言模型,比如Bert,并使用标记为set的方法对其进行微调,如这里所示() 使用这样的语言模型的优点是,您不必太担心语言(预)处理,这意味着您不必获取词性或句法结构 关于您的想法的评论: