使用自定义词汇表（python）从自由文本中标记、提取短语？_Python_Nlp_Nltk_Named Entity Recognition_Data Extraction

使用自定义词汇表（python）从自由文本中标记、提取短语？

python nlp

使用自定义词汇表（python）从自由文本中标记、提取短语？,python,nlp,nltk,named-entity-recognition,data-extraction,Python,Nlp,Nltk,Named Entity Recognition,Data Extraction,我有一个自定义词汇表，SQL表中约有100万行。每行有一个UID和一个相应的短语，其长度可以是多个单词。这张桌子很少变动我需要在自由文本文档中根据上述自定义词汇表标记、提取、组块或识别（NER？）实体短语。所以对于自由文本中的一个短语，我可以提取它的UID 如果根据一些阈值/算法设置对部分匹配和以不同顺序出现的短语标记进行标记/提取，那就太好了哪种NLP工具（最好是基于Python的）可以在标记、提取、分块或从自由文本中删除时使用自定义词汇表了解目标是从自由文本中提取短语-哪种格式最适合

我有一个自定义词汇表，SQL表中约有100万行。每行有一个UID和一个相应的短语，其长度可以是多个单词。这张桌子很少变动

我需要在自由文本文档中根据上述自定义词汇表标记、提取、组块或识别（NER？）实体短语。所以对于自由文本中的一个短语，我可以提取它的UID

如果根据一些阈值/算法设置对部分匹配和以不同顺序出现的短语标记进行标记/提取，那就太好了

哪种NLP工具（最好是基于Python的）可以在标记、提取、分块或从自由文本中删除时使用自定义词汇表
了解目标是从自由文本中提取短语-哪种格式最适合此自定义词汇表与NLP工具一起使用？XML、JSON、树、IOB块、其他
有没有工具可以帮助将SQL表（原始自定义词汇表）转换为NLP算法需要使用的词汇表格式
我是否需要与其他（非pythonic）工具集成，如GATE、KEA、Lingpipe、apachestanbol或OpenNLP
是否有用于标记/提取和创建自定义词汇表的API
有使用RapidMiner或TextRazor的经验吗？这些工具能帮助实现上述功能吗

谢谢

经过数小时的各种API检查，我们决定使用TextRazor

NLP短语提取/分类结果的质量非常好-TextRazor使用Freebase和DBpedia（以及其他存储库），这允许TextRazor将诸如“计算机安全”之类的短语正确地分类/分类/提取为一个实体（而不是其他许多API-将此示例错误地分类为一个类别）“计算机”和另一类“安全性”）。编程控制TextRazor将使用哪些术语，哪些术语不使用，同样非常简单

就速度而言，TextRazor速度惊人。如果我理解正确，它在许多（成百上千？）亚马逊点播机器上使用并行计算

成本-我们将其与其他公司进行了比较，并与他们的一个竞争对手（一家非常大的三信公司）进行了深入分析-他们绝对具有竞争力且合理

使用Python与API的集成（相对而言）是直接的，除了在Web2Py框架上本地工作时https的一些小问题。如果您在Web2Py框架上本地使用TextRazor时遇到障碍，请随时ping我，我很乐意与您分享我们的解决方案

服务/支持-几乎是即时的-他们通常在12小时内回复所有查询

披露-我没有与TextRazor相关的利益、股份或任何其他财务利益，我们实际上仍在他们的免费计划中-因此我们还没有为他们的API服务支付费用。

在检查了许多小时的各种API后，我们决定使用TextRazor

NLP短语提取/分类结果的质量非常好-TextRazor使用Freebase和DBpedia（以及其他存储库），这允许TextRazor将诸如“计算机安全”之类的短语正确地分类/分类/提取为一个实体（而不是其他许多API-将此示例错误地分类为编程控制TextRazor将使用哪些术语，哪些术语不使用，同样非常简单

就速度而言，TextRazor速度惊人。如果我理解正确，它在许多（成百上千？）亚马逊点播机器上使用并行计算

成本-我们将其与其他公司进行了比较，并与他们的一个竞争对手（一家非常大的三信公司）进行了深入分析-他们绝对具有竞争力且合理

服务/支持-几乎是即时的-他们通常在12小时内回复所有查询

披露-我没有与TextRazor相关的利益、股份或任何其他财务利益，我们实际上仍在他们的免费计划中-所以我们还没有为他们的API服务支付费用