特殊字符训练NLP模型

特殊字符训练NLP模型,nlp,azure-language-understanding,qnamaker,Nlp,Azure Language Understanding,Qnamaker,我刚从bots中的NLP开始,用户提出一个由LUIS分类的问题,然后转发给QnAMaker以获得答案,我注意到它在西班牙语中的行为很奇怪,因为我们有重音字符和双问号(?)。例如: [1] ¿qué es NLP? [2] que es NLP 如果我用第一个模型训练我的模型,然后用第二个模型测试它,那么模型不会以相同的意图识别它们。这是一种非常常见的西班牙语交流方式,因为有些人倾向于通过避免重音字符和标点符号来节省时间 我的问题是: 我是否应该规范模型中的每一句话(消除重音, 标点符号等)?

我刚从bots中的NLP开始,用户提出一个由LUIS分类的问题,然后转发给QnAMaker以获得答案,我注意到它在西班牙语中的行为很奇怪,因为我们有重音字符和双问号(?)。例如:

[1] ¿qué es NLP?
[2] que es NLP
如果我用第一个模型训练我的模型,然后用第二个模型测试它,那么模型不会以相同的意图识别它们。这是一种非常常见的西班牙语交流方式,因为有些人倾向于通过避免重音字符和标点符号来节省时间

我的问题是:

  • 我是否应该规范模型中的每一句话(消除重音, 标点符号等)?或者我应该用每一个不同的例子来训练它
  • 是否有培训NLP模型的指导方针,我可以根据这些指导方针开展工作
我是否应该规范模型中的每一句话(消除重音, 标点符号等)?或者我应该用每一个不同的例子来训练它

这实际上取决于您想要什么,但为了不必重复大量的工作,最好只是规范化模型中的每个语句

然后,在你的机器人级别上,你可以做的是去掉带有口音或被认为是“特殊”的字符/替换为规范化字符,然后再将话语发送给路易斯,以预测其意图