Nlp 文本分类
我对NLP的理解不多,所以请保持基本 我想通过关键字提取器/分类器运行一些PDF,并构建一个分类法——希望提供一些商业智能 例如,给我几千个PDF,我想确定它们适用的市场(我们为大约5个主要行业提供服务,每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场,在大多数情况下,这些行业和子行业与原始设备制造商打交道,原始设备制造商又与模型打交道,原始设备制造商进一步细分为零部件等 我很想将这些PDF压缩成半结构化(实际上更像是图形)输出,如:Nlp 文本分类,nlp,Nlp,我对NLP的理解不多,所以请保持基本 我想通过关键字提取器/分类器运行一些PDF,并构建一个分类法——希望提供一些商业智能 例如,给我几千个PDF,我想确定它们适用的市场(我们为大约5个主要行业提供服务,每个行业都有几个次要行业。每个行业和子行业都有一个特定的市场,在大多数情况下,这些行业和子行业与原始设备制造商打交道,原始设备制造商又与模型打交道,原始设备制造商进一步细分为零部件等 我很想将这些PDF压缩成半结构化(实际上更像是图形)输出,如: 航空航天 制造业 修理 PT支架 M2
- 航空航天
- 制造业
- 修理
- PT支架
- M250
- C20
- C18
- PT支架
- 修理
- 分布
- 制造业
在这一点上,我只是想寻找一些想法……看了一些关于R和python LIB的教程,但它们听起来与我想要的不太一样。好的,让我们先把问题分解成小个子问题,我将把任务分解为
你也可以看看clustering algo,它会自动分析数据并将pdf分为不同的类别。pdf是培训数据-至少这是希望。我可以手动构建所有制造商、模型、引擎、组件等的关系,但这是一项艰巨的任务,无法达到目的。我希望分类器可以确定/估计实体何时因其在PDF中的出现和使用而相关。制造商通常在我所查看的所有文档中都位于模型之前。然后问题变得更像是聚类而不是分类,然后你可以尝试确定2你想要的是实体链接,我认为,请参见