Machine learning 文本分类是否足够快,可以提前输入搜索?

Machine learning 文本分类是否足够快,可以提前输入搜索?,machine-learning,text-classification,Machine Learning,Text Classification,我正在设计一个可用于搜索许多不同内容的typeahead服务。我在考虑创建一个文本分类模型,在实际进行搜索之前对这些搜索进行分类 下面是一个我希望从分类模型得到的结果示例 输入 输出 [ { "likeliness": .6, "category": "car-name-typeahead-search" }, { "likeliness": .9, "category": "person-name-typeahead-search" }, {

我正在设计一个可用于搜索许多不同内容的typeahead服务。我在考虑创建一个文本分类模型,在实际进行搜索之前对这些搜索进行分类

下面是一个我希望从分类模型得到的结果示例

输入

输出

[
  {
    "likeliness": .6,
    "category": "car-name-typeahead-search"
  },
  {
    "likeliness": .9,
    "category": "person-name-typeahead-search"
  },
  {
    "likeliness": .1,
    "category": "vin-typeahead-search"
  },
  {
    "likeliness": .2,
    "category": "help-page"
  },
  {
    "likeliness": .2,
    "category": "faq-page"
  }
]
然后,我会选择那些相似性高于某个值的类别,并实际执行typeahead搜索。我还将返回按相似性等级排序的结果

我们一直在收集人们搜索的数据,并跟踪他们实际寻找的内容,因此我们应该拥有训练文本分类模型所需的数据


我的问题是,文本分类模型是否能够足够快地与类型先行服务一起使用,并且不会过于昂贵?我是否应该研究某些类型的文本分类算法?

通常在现代服务框架中(如在独立服务器上运行),基于浅层神经网络的标准文本分类模型的延迟应小于1ms)。您可以查找由以下内容组成的模型:

  • 单词嵌入层(词汇表中多达数百万个单词)
  • 隐藏层(1-3)
  • 分类(多达数千个类别)

如果您的预期响应时间是,我建议您不要过早优化。设计一些现实的测试,衡量性能,然后做出决定。我认为现代搜索引擎已经采用了类似的技术。但是,大多数常见输入的结果可能已经预计算并缓存以提高性能,只有少数用户输入真正需要实时通过ML模型。您对足够快的定义是什么?另外,您没有提到分类模型在哪里运行(在客户端,或者您将分类作为另一个服务运行,因此需要一些RPC来传递结果)。通常在现代服务框架中(如在独立服务器上运行的tensorflow服务),基于浅层神经网络的标准文本分类模型的延迟应低于1ms)。@greeness我们希望typeahead响应时间总共少于200ms。分类模型将是服务器端的。听上去,文本分类模型已经足够快了,可以满足我们的需要。如果你加上你的答案,我就接受。谢谢
[
  {
    "likeliness": .6,
    "category": "car-name-typeahead-search"
  },
  {
    "likeliness": .9,
    "category": "person-name-typeahead-search"
  },
  {
    "likeliness": .1,
    "category": "vin-typeahead-search"
  },
  {
    "likeliness": .2,
    "category": "help-page"
  },
  {
    "likeliness": .2,
    "category": "faq-page"
  }
]