Ibm cloud Watson可以从IBM云对象存储处理多少数据?

Ibm cloud Watson可以从IBM云对象存储处理多少数据?,ibm-cloud,ibm-watson,watson-assistant,watson-discovery,Ibm Cloud,Ibm Watson,Watson Assistant,Watson Discovery,我正在Node.JS应用程序中使用Watson助手和Watson发现。我的想法是,我将使用Discovery服务进行更多类似于问答的事情——我将助手的话语传递给Discovery,并将其发送给Discovery以获得答案。因此,我准备了一个JSON格式的数据结构,它将充当问答数据库。例如: { "elements":[ { "ProductID":12345, "Questions":[

我正在
Node.JS
应用程序中使用
Watson助手
Watson发现
。我的想法是,我将使用Discovery服务进行更多类似于问答的事情——我将助手的话语传递给Discovery,并将其发送给Discovery以获得答案。因此,我准备了一个
JSON
格式的数据结构,它将充当问答数据库。例如:

{
  "elements":[
    {
      "ProductID":12345,
      "Questions":[
        "What is included in insurance Type A?",
        "Does insurance Type A provide this kind of protection?"
      ],
      "Answer":"Insurance Type A can be used for the cases ..." 
    },
    ...
  ]
}
这些数据可以通过API进行更新、删除、扩展等(所有正常的数据库操作),每次更改后,发现端也必须更新这些数据。我检查了集成类型-Salesforce、Box等,发现有一个IBM Cloud Object Storage集成,我想将其用作数据库。我的问题是:


在我们设置了与端点的连接后,Discovery是否会处理该存储桶中的所有数据,即使将来数据为1Gb?

您可以使用Discovery连接到远程源并从远程源抓取文档

以下一般要求适用于所有数据源:

  • Box、Salesforce、SharePoint Online、SharePoint 2016、IBM云对象存储和Web爬网的单个文档文件大小限制为10MB
  • 您必须具有每个数据源的凭据、文件位置或URL。开发人员或系统管理员通常提供数据源的凭据、文件位置和URL
  • 您必须知道要爬网的数据源的哪些资源,以及源管理员可以提供哪些资源。如果您使用crawl Box或Salesforce,则在使用发现工具配置源时,将显示可用资源的列表
  • 如果您使用的是发现工具,则可以使用单个数据源配置集合。如果使用API,则可以将来自多个数据源的文档摄取到单个集合中
  • 对数据源进行爬网使用数据源的资源,即API调用。API调用的数量取决于需要爬网的文档数量。您必须为数据源获取适当级别的服务许可证,例如Enterprise。有关所需的相应服务级别许可证的信息,请与源系统管理员联系
  • 发现源爬网不会删除存储在集合中的文档,但您可以使用API手动删除它们。重新爬网源时,将添加新文档,更新的文档将修改为当前版本,删除的文档将保留为上次存储的版本
检查是否完整

如果您决定使用API或工具,当您准备在IBM Watson Debug Service

中添加文档时,请考虑以下事项:
  • 可上载到Discovery的最大文件大小为50MB
  • 只有选择用于充实的每个JSON字段的前50000个字符被充实
  • 创建集合时,选择文档语言(默认为英语)。有关语言列表,请参见语言支持。您的文档将以所选语言进行丰富。不要在同一集合中混合语言

查看更多信息,请访问

谢谢您的回复,但我在文档中看到了这些信息。问题是,在对IBM Cloud Storage对象执行爬网之后,整个存储将通过Discovery“转换”为文档,这样我们就知道我们使用了多少空间?正如上面的答案所述,可以上载到Discovery的最大文件大小是50MB。