Nlp 管道中的空间包含规则匹配器

Nlp 管道中的空间包含规则匹配器,nlp,spacy,Nlp,Spacy,我的语料库中有一些我需要忽略的短语(希望避免过度拟合)。它们是相当简单的正则表达式,我也可以用Spacy基于规则的匹配格式编写 我希望在进入NER和TextCat管道之前,在我的模型中将匹配标记为停止词。我知道如何编写matcher,但我不确定如何将其合并到我的模型中?我是否只是将其添加为管道 谢谢 聪明的想法。 在管道中添加规则匹配器应该相当容易。自定义组件只是将文档对象作为参数并返回可能修改的文档对象的函数。所以基本上,你会做一些类似的事情: def my_组件(文档): #匹配器工作在这里

我的语料库中有一些我需要忽略的短语(希望避免过度拟合)。它们是相当简单的正则表达式,我也可以用Spacy基于规则的匹配格式编写

我希望在进入NER和TextCat管道之前,在我的模型中将匹配标记为停止词。我知道如何编写matcher,但我不确定如何将其合并到我的模型中?我是否只是将其添加为管道

谢谢

聪明的想法。 在管道中添加规则匹配器应该相当容易。自定义组件只是将文档对象作为参数并返回可能修改的文档对象的函数。所以基本上,你会做一些类似的事情: def my_组件(文档): #匹配器工作在这里 退货单

但是请记住,令牌的is_stop属性是不可写的,这意味着您将无法更改它。当然,您可以设置一个自定义令牌扩展,但这绝不会被用于预测

解决这个问题的一个更简单的方法是在创建doc对象之前忽略这些单词。如果您说表达式只是正则表达式,那么Matcher将不会对您有任何进一步的好处

希望有帮助:)