Nlp 实时分析自然语言问题的工具

Nlp 实时分析自然语言问题的工具,nlp,stanford-nlp,opennlp,Nlp,Stanford Nlp,Opennlp,我想将预设查询解析为条件(如上所述)。我想要这些品质: 即使有绒毛(“我想看”)和小写名词,我也可以提取相关术语 warm程序可以通过HTTP接受请求,或者允许我添加一些网络通信 warm程序响应时间为50ms,需要500Mb的内存才能写出合理的句子 我在Python方面更有经验,而在Java方面则更少 解析器数据结构易于处理 我使用NLTK,但速度很慢。我认为StanfordNLP和OpenNLP是可行的替代方案,但我发现程序启动延迟太高。如果没有其他选择,我不介意将它们集成到servlet上

我想将预设查询解析为条件(如上所述)。我想要这些品质:

  • 即使有绒毛(“我想看”)和小写名词,我也可以提取相关术语
  • warm程序可以通过HTTP接受请求,或者允许我添加一些网络通信
  • warm程序响应时间为50ms,需要500Mb的内存才能写出合理的句子
  • 我在Python方面更有经验,而在Java方面则更少
  • 解析器数据结构易于处理

  • 我使用NLTK,但速度很慢。我认为StanfordNLP和OpenNLP是可行的替代方案,但我发现程序启动延迟太高。如果没有其他选择,我不介意将它们集成到servlet上。

    斯坦福解析器是一个可靠的选择,并且得到了很好的支持(正如研究代码所示).但听起来低延迟对你来说是一个重要的要求,所以我也建议你看看(完整披露-我是研究BUB的主要研究人员之一)

    我没有直接与NLTK进行比较,但我认为您可能会发现斯坦福解析器无法满足您的性能需求。发现总吞吐量约为60字/秒(约2-3句/秒)。这些计时非常陈旧,因此较新的硬件肯定会改善这一点,但可能仍然不会接近50毫秒的延迟

    正如您所注意到的,启动时间对于任何解析器来说都是一个问题——高精度的模型必然非常大。而且500 MB可能也非常紧张(我通常运行1-1.2 GB的BUBS)。但是一旦加载,BUBS延迟通常在每句话10毫秒左右(对于约20-25个单词的句子),在精度开始下降之前,我们可以将总吞吐量提高约2500字/秒。我认为这些数字可能满足您的性能需求,而且我不知道还有任何其他高精度(F1>=88-89)解析器的速度接近

    注意:最快的结果是最近的修剪模型还没有发布到网站上,但是如果你需要的话,我可以给你一个模型。希望这有帮助,如果你有更多的问题,请随时提问

    photos in washington VS show me photos in washington VS I wanna see all my photos in washington taken day before yesterday
    
    what:photos
    entities:washington (dont want to be too assuming)
    when: 2013-03-14