Java 使用NLP从非结构化文本中提取特定于领域的数据

Java 使用NLP从非结构化文本中提取特定于领域的数据,java,nlp,data-mining,pos-tagger,information-extraction,Java,Nlp,Data Mining,Pos Tagger,Information Extraction,我正在寻找一种从Java中的非结构化文本中自动提取特定领域知识的方法。我们将拥有一个手动注释的培训集,其中包含以下内容: 文本:公寓包含两间卧室和一间浴室。 结构化的 -类型:公寓 -卧室:2间 -浴室:1间 你知道培训一个能胜任这项工作的模特的最佳方法是什么吗?可能是我们用自定义标记扩展的POS标记器 谢谢 我不认为这个问题离题。事实上,这是非常相关和重要的。你能为你的问题添加更多的例子吗?因为只有少数几个好的nlp库,这些问题通常不会引发垃圾邮件。我重新措辞了。关于这个主题,我建议使用GAT

我正在寻找一种从Java中的非结构化文本中自动提取特定领域知识的方法。我们将拥有一个手动注释的培训集,其中包含以下内容:

文本:公寓包含两间卧室和一间浴室。 结构化的 -类型:公寓 -卧室:2间 -浴室:1间

你知道培训一个能胜任这项工作的模特的最佳方法是什么吗?可能是我们用自定义标记扩展的POS标记器


谢谢

我不认为这个问题离题。事实上,这是非常相关和重要的。你能为你的问题添加更多的例子吗?因为只有少数几个好的nlp库,这些问题通常不会引发垃圾邮件。我重新措辞了。关于这个主题,我建议使用GATE的jape或UIMA的TextMarker创建一个基于规则的系统。您可以编写类似正则表达式的规则,如“匹配数字或查找数字单词,然后是房间名称的(复数)名词和查找”=>“创建NumRooms注释”。对于一个非常受限的领域,创建术语词典应该很容易,规则也应该很简单。