使用自定义词汇表(python)从自由文本中标记、提取短语?

使用自定义词汇表(python)从自由文本中标记、提取短语?,python,nlp,nltk,named-entity-recognition,data-extraction,Python,Nlp,Nltk,Named Entity Recognition,Data Extraction,我有一个自定义词汇表,SQL表中约有100万行。每行有一个UID和一个相应的短语,其长度可以是多个单词。这张桌子很少变动 我需要在自由文本文档中根据上述自定义词汇表标记、提取、组块或识别(NER?)实体短语。所以对于自由文本中的一个短语,我可以提取它的UID 如果根据一些阈值/算法设置对部分匹配和以不同顺序出现的短语标记进行标记/提取,那就太好了 哪种NLP工具(最好是基于Python的)可以在标记、提取、分块或从自由文本中删除时使用自定义词汇表 了解目标是从自由文本中提取短语-哪种格式最适合

我有一个自定义词汇表,SQL表中约有100万行。每行有一个UID和一个相应的短语,其长度可以是多个单词。这张桌子很少变动

我需要在自由文本文档中根据上述自定义词汇表标记、提取、组块或识别(NER?)实体短语。所以对于自由文本中的一个短语,我可以提取它的UID

如果根据一些阈值/算法设置对部分匹配和以不同顺序出现的短语标记进行标记/提取,那就太好了

  • 哪种NLP工具(最好是基于Python的)可以在标记、提取、分块或从自由文本中删除时使用自定义词汇表
  • 了解目标是从自由文本中提取短语-哪种格式最适合此自定义词汇表与NLP工具一起使用?XML、JSON、树、IOB块、其他
  • 有没有工具可以帮助将SQL表(原始自定义词汇表)转换为NLP算法需要使用的词汇表格式
  • 我是否需要与其他(非pythonic)工具集成,如GATE、KEA、Lingpipe、apachestanbol或OpenNLP
  • 是否有用于标记/提取和创建自定义词汇表的API
  • 有使用RapidMiner或TextRazor的经验吗?这些工具能帮助实现上述功能吗

谢谢

经过数小时的各种API检查,我们决定使用TextRazor

NLP短语提取/分类结果的质量非常好-TextRazor使用Freebase和DBpedia(以及其他存储库),这允许TextRazor将诸如“计算机安全”之类的短语正确地分类/分类/提取为一个实体(而不是其他许多API-将此示例错误地分类为一个类别)“计算机”和另一类“安全性”)。编程控制TextRazor将使用哪些术语,哪些术语不使用,同样非常简单

就速度而言,TextRazor速度惊人。如果我理解正确,它在许多(成百上千?)亚马逊点播机器上使用并行计算

成本-我们将其与其他公司进行了比较,并与他们的一个竞争对手(一家非常大的三信公司)进行了深入分析-他们绝对具有竞争力且合理

使用Python与API的集成(相对而言)是直接的,除了在Web2Py框架上本地工作时https的一些小问题。如果您在Web2Py框架上本地使用TextRazor时遇到障碍,请随时ping我,我很乐意与您分享我们的解决方案

服务/支持-几乎是即时的-他们通常在12小时内回复所有查询


披露-我没有与TextRazor相关的利益、股份或任何其他财务利益,我们实际上仍在他们的免费计划中-因此我们还没有为他们的API服务支付费用。

在检查了许多小时的各种API后,我们决定使用TextRazor

NLP短语提取/分类结果的质量非常好-TextRazor使用Freebase和DBpedia(以及其他存储库),这允许TextRazor将诸如“计算机安全”之类的短语正确地分类/分类/提取为一个实体(而不是其他许多API-将此示例错误地分类为编程控制TextRazor将使用哪些术语,哪些术语不使用,同样非常简单

就速度而言,TextRazor速度惊人。如果我理解正确,它在许多(成百上千?)亚马逊点播机器上使用并行计算

成本-我们将其与其他公司进行了比较,并与他们的一个竞争对手(一家非常大的三信公司)进行了深入分析-他们绝对具有竞争力且合理

使用Python与API的集成(相对而言)是直接的,除了在Web2Py框架上本地工作时https的一些小问题。如果您在Web2Py框架上本地使用TextRazor时遇到障碍,请随时ping我,我很乐意与您分享我们的解决方案

服务/支持-几乎是即时的-他们通常在12小时内回复所有查询

披露-我没有与TextRazor相关的利益、股份或任何其他财务利益,我们实际上仍在他们的免费计划中-所以我们还没有为他们的API服务支付费用