Nlp 删除垃圾句子_Nlp - Fatal编程技术网

Nlp 删除垃圾句子

nlp

Nlp 删除垃圾句子,nlp,Nlp,我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。我想知道什么方法最适合这项任务我的想法是： •使用tf idf和word2vec从所有句子中创建向量。之后，我们可以进行某种异常检测，例如查找和删除与大多数其他向量高度偏离的向量 •垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器 •包装一些适当句子必须包含的词性标签模式。例如，任何好的句子都必须包括名词+动词。或者我

我有客户和代理商的电话记录。我在努力寻找一个代理商对客户的承诺

我已经做了标点恢复。但是有很多句子没有任何意义。我想把它们从成绩单上删除。它们中的大多数只是一组不相连的单词。我想知道什么方法最适合这项任务

我的想法是：

•使用tf idf和word2vec从所有句子中创建向量。之后，我们可以进行某种异常检测，例如查找和删除与大多数其他向量高度偏离的向量

•垃圾邮件过滤器。也许可以为此任务应用垃圾邮件过滤器

•包装一些适当句子必须包含的词性标签模式。例如，任何好的句子都必须包括名词+动词。或者我们可以使用spacy的依赖标记

示例

我想保留的句子示例：

发送后，您将获得ups追踪号码，这是免费的

垃圾句示例：

金德公关公司只需再次输入，时钟驱动贝瑟尔

另一句废话：

你穿上它说这是关于那个的

我想尝试的一件事是将其视为一个分类问题（垃圾与非垃圾）。您可以基于标记集训练模型（即，您需要标记数据集的某个子集），然后对语料库的其余部分进行分类。您可以使用一个预先训练好的语言模型，比如Bert，并使用标记为set的方法对其进行微调，如这里所示（）

使用这样的语言模型的优点是，您不必太担心语言（预）处理，这意味着您不必获取词性或句法结构

关于您的想法的评论：

tf idf和word2vec异常检测：这取决于语料库中垃圾句的比例。如果他们超过15%，我认为他们可能没有那么不正常。另外，我假设你的垃圾句子来自嘈杂的自动语音到文本转录。我不确定这些垃圾句子的部分被正确转录的程度，以及正确转录的部分对异常程度的影响

如果你指的是已经存在的垃圾邮件过滤器，这些过滤器都是针对垃圾邮件进行培训的，那么我猜垃圾邮件与成绩单的垃圾内容是完全不同的

使用POS标记或语法结构手动创建有效句子的规则：这对我来说似乎也有点乏味，而且我也不确定你是否会发现所有的垃圾。例如，在您的垃圾示例中，我并不觉得语法结构太不寻常，例如，“clock drives bethel”可能被标记为，这是一个非常常见的标记序列。这种情况下的垃圾来自词语的含义