Machine learning 如何使用OpenNLP根据文本类别标记文本？_Machine Learning_Nlp_Stanford Nlp_Opennlp_Text Classification

Machine learning 如何使用OpenNLP根据文本类别标记文本？

machine-learning nlp stanford-nlp

Machine learning 如何使用OpenNLP根据文本类别标记文本？,machine-learning,nlp,stanford-nlp,opennlp,text-classification,Machine Learning,Nlp,Stanford Nlp,Opennlp,Text Classification,我想根据文本所属的类别标记文本例如 “离合器和齿轮使用微芯片进行监控”->离合器/机械、齿轮/机械、微芯片/电子 “此处用于监测氢含量的软件”->软件/计算机、氢/化学如何使用openNLP或其他NLP引擎执行此操作我的作品我尝试了NER模型，但它需要大量的训练语料，而我没有我的需要是否有任何现成的训练语料库可用于NER或分类（它必须包含科学和工程词汇）如果要为整个句子创建一组类标签，则需要使用Doccat库。使用Doccat，您将获得每个文本块的prob分布。使用doccat，

我想根据文本所属的类别标记文本

例如

“离合器和齿轮使用微芯片进行监控”->离合器/机械、齿轮/机械、微芯片/电子

“此处用于监测氢含量的软件”->软件/计算机、氢/化学

如何使用openNLP或其他NLP引擎执行此操作

我的作品
我尝试了NER模型，但它需要大量的训练语料，而我没有

我的需要

是否有任何现成的训练语料库可用于NER或分类（它必须包含科学和工程词汇）

如果要为整个句子创建一组类标签，则需要使用Doccat库。使用Doccat，您将获得每个文本块的prob分布。使用doccat，您的样本将产生如下结果：

“离合器和齿轮使用微芯片进行监控”->机械0.85847568，电子0.374658

使用doocat，您将丢失关键字->类标签映射，因此如果您确实需要它，doccat可能不会剪切它

至于NER，OpenNLP有一个名为Modelbuilder的插件，可以帮助您。它旨在加快NER模型构建的创建。您可以为每个类别创建一个文件/列表，其中包含您所能想到的尽可能多的术语，然后创建一个包含大量句子的文件，然后使用插件使用种子术语和句子文件创建一个NER模型。请参阅我之前用代码示例描述的这篇文章。您将不得不从SVN中删除插件

你能更具体地回答你的问题吗？你提前知道你的分类吗？您使用这些类别的目的是什么？您是否也需要进行命名实体识别，或者只是进行词性标记？到目前为止你尝试了什么？@SlaterTyranus我需要名称实体识别。。。我试着用我自己的文本索引。。。但是我不能靠我自己，因为单词太多了。我想要科学词汇、工程词汇、技术词汇等类别。。喜欢那样谢谢@markg你能提供doccat库的链接吗。。（谷歌找不到）。。。。是否有任何在线文本语料库具有您上面提到的类别映射…这里是另一篇文章的链接，我将在这里展示如何使用doccat opennlp库。您将需要opennlp罐子