User interface Seq2Seq模型-聊天机器人
我正在使用User interface Seq2Seq模型-聊天机器人,user-interface,chatbot,User Interface,Chatbot,我正在使用seq2seq创建聊天机器人。通常,在处理文本数据时,我们会删除所有标点符号和停止字,并将它们输入到模型中 所以我的问题是这不会影响输出的可读性? 例如,用户在聊天机器人窗口中输入一些问题,然后按enter键获得答案。现在,如果用户得到的答案没有标点符号和停止词,这会影响可读性吗?这实际上取决于您想要创建什么类型的聊天机器人。一般来说,我们有两种聊天机器人: 基于检索的:您可以使用许多对来训练您的模型。在推理阶段,您的模型会找到与培训示例最相似的项,并返回给用户。在这种情况下,我们发
seq2seq
创建聊天机器人。通常,在处理文本数据时,我们会删除所有标点符号和停止字,并将它们输入到模型中
所以我的问题是这不会影响输出的可读性
?
例如,用户在聊天机器人窗口中输入一些问题,然后按enter键获得答案。现在,如果用户得到的答案没有标点符号和停止词,这会影响可读性吗?这实际上取决于您想要创建什么类型的聊天机器人。一般来说,我们有两种聊天机器人:
- 基于检索的:您可以使用许多对来训练您的模型。在推理阶段,您的模型会找到与培训示例最相似的项,并返回给用户。在这种情况下,我们发现用户问题和我们的问题最相似。然后返回最相似问题对用户的回答。所以,如果我们做预处理,这将不会影响可读性或其他事情
- 基于代的:在基于代的聊天机器人中(如您提到的
seq2seq
),聊天机器人的响应完全取决于您输入的培训内容。如果您删除标点符号或停止字,是的,它会影响您的响应,并且您无法在您的聊天机器人响应中看到这些内容
当然,它会降低可读性。其中许多单词和所有标点符号的存在是为了引导读者对句子进行预期的分析。换言之:
course degrades readability many words
punctuation guide reader intended parsing
sentence put another way
有许多短语、句子和段落的例子需要标点符号来消除意图的歧义
删除“语法糖”只是为了促进使用某些(大多数)技术来快速确定与类似处理文档的可能相关性。您的机器人设计必须将此过程与用户界面分离。您返回给用户的任何内容都应该是人类语言,而不是用于信息检索的内部单词soup