Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/sql/81.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 如何使用OpenNLP根据文本类别标记文本?_Machine Learning_Nlp_Stanford Nlp_Opennlp_Text Classification - Fatal编程技术网

Machine learning 如何使用OpenNLP根据文本类别标记文本?

Machine learning 如何使用OpenNLP根据文本类别标记文本?,machine-learning,nlp,stanford-nlp,opennlp,text-classification,Machine Learning,Nlp,Stanford Nlp,Opennlp,Text Classification,我想根据文本所属的类别标记文本 例如 “离合器和齿轮使用微芯片进行监控”->离合器/机械、齿轮/机械、微芯片/电子 “此处用于监测氢含量的软件”->软件/计算机、氢/化学 如何使用openNLP或其他NLP引擎执行此操作 我的作品 我尝试了NER模型,但它需要大量的训练语料,而我没有 我的需要 是否有任何现成的训练语料库可用于NER或分类(它必须包含科学和工程词汇) 如果要为整个句子创建一组类标签,则需要使用Doccat库。使用Doccat,您将获得每个文本块的prob分布。 使用doccat,

我想根据文本所属的类别标记文本

例如

“离合器和齿轮使用微芯片进行监控”->离合器/机械、齿轮/机械、微芯片/电子

“此处用于监测氢含量的软件”->软件/计算机、氢/化学

如何使用openNLP或其他NLP引擎执行此操作

我的作品
我尝试了NER模型,但它需要大量的训练语料,而我没有

我的需要


是否有任何现成的训练语料库可用于NER或分类(它必须包含科学和工程词汇)

如果要为整个句子创建一组类标签,则需要使用Doccat库。使用Doccat,您将获得每个文本块的prob分布。 使用doccat,您的样本将产生如下结果:

“离合器和齿轮使用微芯片进行监控”->机械0.85847568,电子0.374658

使用doocat,您将丢失关键字->类标签映射,因此如果您确实需要它,doccat可能不会剪切它

至于NER,OpenNLP有一个名为Modelbuilder的插件,可以帮助您。它旨在加快NER模型构建的创建。您可以为每个类别创建一个文件/列表,其中包含您所能想到的尽可能多的术语,然后创建一个包含大量句子的文件,然后使用插件使用种子术语和句子文件创建一个NER模型。请参阅我之前用代码示例描述的这篇文章。您将不得不从SVN中删除插件


你能更具体地回答你的问题吗?你提前知道你的分类吗?您使用这些类别的目的是什么?您是否也需要进行命名实体识别,或者只是进行词性标记?到目前为止你尝试了什么?@SlaterTyranus我需要名称实体识别。。。我试着用我自己的文本索引。。。但是我不能靠我自己,因为单词太多了。我想要科学词汇、工程词汇、技术词汇等类别。。喜欢那样谢谢@markg你能提供doccat库的链接吗。。(谷歌找不到)。。。。是否有任何在线文本语料库具有您上面提到的类别映射…这里是另一篇文章的链接,我将在这里展示如何使用doccat opennlp库。您将需要opennlp罐子