Nlp 文本分类

Nlp 文本分类,nlp,Nlp,我对NLP的理解不多,所以请保持基本 我想通过关键字提取器/分类器运行一些PDF,并构建一个分类法——希望提供一些商业智能 例如,给我几千个PDF,我想确定它们适用的市场(我们为大约5个主要行业提供服务,每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场,在大多数情况下,这些行业和子行业与原始设备制造商打交道,原始设备制造商又与模型打交道,原始设备制造商进一步细分为零部件等 我很想将这些PDF压缩成半结构化(实际上更像是图形)输出,如: 航空航天 制造业 修理 PT支架 M2

我对NLP的理解不多,所以请保持基本

我想通过关键字提取器/分类器运行一些PDF,并构建一个分类法——希望提供一些商业智能

例如,给我几千个PDF,我想确定它们适用的市场(我们为大约5个主要行业提供服务,每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场,在大多数情况下,这些行业和子行业与原始设备制造商打交道,原始设备制造商又与模型打交道,原始设备制造商进一步细分为零部件等

我很想将这些PDF压缩成半结构化(实际上更像是图形)输出,如:

  • 航空航天
    • 制造业
      • 修理
        • PT支架
          • M250
          • C20
          • C18
    • 分布
文本分类器可以做到这一点吗?这是否太具体了?您如何训练这样一个系统,即C18是M250系列“制造商”劳斯莱斯的“模型”,而“PT支架”是子组件

我可以手动创建此数据,但需要花费很长时间

有没有一种方法可以使用文本分类器框架来构建比regex和python更高效的东西


在这一点上,我只是想寻找一些想法……看了一些关于R和python LIB的教程,但它们听起来与我想要的不太一样。

好的,让我们先把问题分解成小个子问题,我将把任务分解为

  • 阅读PDF并从中提取数据和元数据-看看lib
  • 任何更有效的分类器都需要训练数据-为文本分类器创建训练数据
  • 然后应用任何合适的分类器算法

  • 你也可以看看clustering algo,它会自动分析数据并将pdf分为不同的类别。

    pdf是培训数据-至少这是希望。我可以手动构建所有制造商、模型、引擎、组件等的关系,但这是一项艰巨的任务,无法达到目的。我希望分类器可以确定/估计实体何时因其在PDF中的出现和使用而相关。制造商通常在我所查看的所有文档中都位于模型之前。然后问题变得更像是聚类而不是分类,然后你可以尝试确定2你想要的是实体链接,我认为,请参见