Nlp 用于构建聊天机器人的对话数据

Nlp 用于构建聊天机器人的对话数据,nlp,chatbot,rasa-nlu,Nlp,Chatbot,Rasa Nlu,我正在与rasa nlu建立聊天机器人。我完成了教程,并构建了一个简单的机器人。然而,我需要大量的培训数据来构建一个能够预订出租车的聊天机器人。所以我需要数据来构建一个特定的机器人 是否有预订出租车的资料库或语料库? 还是有办法生成这种数据集?这是Rasa创始人之一的一篇博文,我认为它提供了一些非常好的建议。我认为你要求一套预建的训练设备是错误的。自己开始,然后添加朋友,等等,直到你建立了一个最适合你的机器人的训练集 除此之外,Rasa文件还对此进行了研究 当rasa_nlu服务器运行时,它会

我正在与rasa nlu建立聊天机器人。我完成了教程,并构建了一个简单的机器人。然而,我需要大量的培训数据来构建一个能够预订出租车的聊天机器人。所以我需要数据来构建一个特定的机器人

是否有预订出租车的资料库或语料库?
还是有办法生成这种数据集?

这是Rasa创始人之一的一篇博文,我认为它提供了一些非常好的建议。我认为你要求一套预建的训练设备是错误的。自己开始,然后添加朋友,等等,直到你建立了一个最适合你的机器人的训练集

除此之外,Rasa文件还对此进行了研究

当rasa_nlu服务器运行时,它会跟踪所有 做出预测并将其保存到日志文件中。默认日志 文件放在logs/中。此目录中的文件包含一个 每行json对象。您可以修复任何错误的预测并添加 将它们添加到训练集中,以改进解析器

我想你会惊讶地发现,仅凭你自己的训练设备,你就可以取得如此大的进步


祝你找到语料库好运,但不管怎样,希望这些链接和片段能有所帮助。

一种方法是,前往

使用Office 365登录,制作您自己的出租车预订应用程序,输入以下意图和话语:

现在,在培训和发布模型后,下载以下语料库:

现在,在下载语料库之后,它将如下所示:

安装RASA NLU,我的机器上有Windows 8.1,因此步骤如下:

{
    "project": "Travel",
    "pipeline": "spacy_sklearn",
    "language": "en",
    "num_threads": 1,
    "max_training_processes": 1,
    "path": "C:\\Users\\Kunal\\Desktop\\RASA\\models",
    "response_log": "C:\\Users\\Kunal\\Desktop\\RASA\\log",
    "config": "C:\\Users\\Kunal\\Desktop\\RASA\\config_spacy.json",
    "log_level": "INFO",
    "port": 5000,
    "data": "C:\\Users\\Kunal\\Desktop\\RASA\\data\\FlightBotFinal.json",
    "emulate": "luis",
    "spacy_model_name": "en",
    "token": null,
    "cors_origins": ["*"],
    "aws_endpoint_url": null
  }
以下是配置RASA的步骤:

首次安装: 用于安装Python 3.6解释器的Anaconda 4.3.0 64位Windows:

&

Visual Studio 2015的Python工具:

接下来,在命令提示符下以管理模式按此顺序安装以下软件包:

  • Spacy机器学习软件包:pip安装-U Spacy
  • Spacy英语语言模型:python-mspacy下载en
  • Scikit软件包:pip安装-U Scikit学习
  • 用于数学计算的Numpy软件包:pip安装-U Numpy
  • Scipy软件包:pip安装-U Scipy
  • 用于意图识别的Sklearn软件包:pip安装-U Sklearn crfsuite
  • NER Duckling使用Spacy实现更好的实体识别:pip安装-U Duckling
  • RASA NLU:pip安装-U RASA_NLU==0.10.4
  • 成功安装上述所有软件包后,制作一个spaCy配置文件,RASA将读取该文件,如下所示:

    {
        "project": "Travel",
        "pipeline": "spacy_sklearn",
        "language": "en",
        "num_threads": 1,
        "max_training_processes": 1,
        "path": "C:\\Users\\Kunal\\Desktop\\RASA\\models",
        "response_log": "C:\\Users\\Kunal\\Desktop\\RASA\\log",
        "config": "C:\\Users\\Kunal\\Desktop\\RASA\\config_spacy.json",
        "log_level": "INFO",
        "port": 5000,
        "data": "C:\\Users\\Kunal\\Desktop\\RASA\\data\\FlightBotFinal.json",
        "emulate": "luis",
        "spacy_model_name": "en",
        "token": null,
        "cors_origins": ["*"],
        "aws_endpoint_url": null
      }
    
    接下来,创建如下目录结构:

    数据文件夹将包含所有LUIS格式的语料库

    模型将包含所有经过培训的模型

    日志->将包含活动学习日志和RASA框架日志

    像这样,

    现在,制作用于培训和启动RASA NLU服务器的批处理文件脚本

    使用记事本或Visual Studio代码制作TrainRASA.bat并编写以下内容:

     python -m rasa_nlu.train -c config_spacy.json
     pause
    
    python -m rasa_nlu.server -c config_spacy.json
    pause
    
    现在,使用记事本或Visual Studio代码制作StartRASA.bat,并编写以下内容:

     python -m rasa_nlu.train -c config_spacy.json
     pause
    
    python -m rasa_nlu.server -c config_spacy.json
    pause
    
    现在,通过单击刚刚创建的批处理文件脚本来训练并启动RASA服务器

    现在,一切都准备好了,只需启动chrome并向enpoint/parse发出HTTP GET请求

    例如:&项目=

    您将得到一个JSON响应,该响应对应于Bot Framework C#的LUISResult类

    现在处理完成后要执行的业务逻辑

    或者,您可以看看RASA Core,它主要是为此而建造的。


    下面的链接包含与商业聊天机器人应用程序相关的数据集(“人机对话”)。这是一个相当全面的人机文本对话数据集以及音频对话数据集的集合

    我们确实面临同样的问题。长话短说,我们决定创建一个简单的工具,从朋友、同事或Mechanical Turk上的人那里收集数据

    我们的想法是创建如下投票: 把它们寄给你认识的任何人。有了这个解决方案,我们能够在几天内构建一个包含6000多个句子、分为10个意图的数据集

    该工具是免费的,只要您同意使用它构建的数据集可以是开源的。如果您希望成为您收集的数据的唯一受益人,则这些计划也将被支付