Nlp 文本分类_Nlp - Fatal编程技术网

Nlp 文本分类

nlp

Nlp 文本分类,nlp,Nlp,我对NLP的理解不多，所以请保持基本我想通过关键字提取器/分类器运行一些PDF，并构建一个分类法——希望提供一些商业智能例如，给我几千个PDF，我想确定它们适用的市场（我们为大约5个主要行业提供服务，每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场，在大多数情况下，这些行业和子行业与原始设备制造商打交道，原始设备制造商又与模型打交道，原始设备制造商进一步细分为零部件等我很想将这些PDF压缩成半结构化（实际上更像是图形）输出，如：航空航天制造业修理 PT支架 M2

我对NLP的理解不多，所以请保持基本

我想通过关键字提取器/分类器运行一些PDF，并构建一个分类法——希望提供一些商业智能

例如，给我几千个PDF，我想确定它们适用的市场（我们为大约5个主要行业提供服务，每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场，在大多数情况下，这些行业和子行业与原始设备制造商打交道，原始设备制造商又与模型打交道，原始设备制造商进一步细分为零部件等

我很想将这些PDF压缩成半结构化（实际上更像是图形）输出，如：

航空航天
- 制造业
  - 修理
    - PT支架
      - M250
      - C20
      - C18
- 分布

文本分类器可以做到这一点吗？这是否太具体了？您如何训练这样一个系统，即C18是M250系列“制造商”劳斯莱斯的“模型”，而“PT支架”是子组件

我可以手动创建此数据，但需要花费很长时间

有没有一种方法可以使用文本分类器框架来构建比regex和python更高效的东西

在这一点上，我只是想寻找一些想法……看了一些关于R和python LIB的教程，但它们听起来与我想要的不太一样。

好的，让我们先把问题分解成小个子问题，我将把任务分解为

阅读PDF并从中提取数据和元数据-看看lib

任何更有效的分类器都需要训练数据-为文本分类器创建训练数据

然后应用任何合适的分类器算法

你也可以看看clustering algo，它会自动分析数据并将pdf分为不同的类别。

pdf是培训数据-至少这是希望。我可以手动构建所有制造商、模型、引擎、组件等的关系，但这是一项艰巨的任务，无法达到目的。我希望分类器可以确定/估计实体何时因其在PDF中的出现和使用而相关。制造商通常在我所查看的所有文档中都位于模型之前。然后问题变得更像是聚类而不是分类，然后你可以尝试确定2你想要的是实体链接，我认为，请参见