Apache 乌伊玛鲁塔的模糊性

Apache 乌伊玛鲁塔的模糊性,apache,nlp,uima,fuzzy-logic,ruta,Apache,Nlp,Uima,Fuzzy Logic,Ruta,在单词匹配的情况下,是否有模糊性的选择,或者忽略一些特殊情况 例如: STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"}; DECLARE ANIMAL; Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)}; 我需要将单词与列表进行匹配,以防我遇到一些特殊字符,如 老虎-或猴子$ 根据不同的评价者有什么想法如何使用? 或者我可以使用

在单词匹配的情况下,是否有模糊性的选择,或者忽略一些特殊情况

例如:

STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"};
DECLARE ANIMAL;


Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)};
我需要将单词与列表进行匹配,以防我遇到一些特殊字符,如

老虎-猴子$

根据不同的评价者有什么想法如何使用?
或者我可以使用<强>分数>强>或>强>标记> <强>

这里有几个方面需要考虑。通常,UIMA Ruta不支持字典查找中的模糊性
SCORE
MARKSCORE
是可以用来在顺序规则中引入一些启发式评分(并非真正的模糊性)的语言元素。在您在问题中给出的示例中,您实际上不需要模糊匹配

UIMA Ruta中的字典查找工作在RutaBasic注释上。这些注释由UIMA Ruta自身自动创建和维护(不应由其他分析引擎或规则直接更改)。RutaBasic注释代表注释所指的最小片段。默认情况下,RutaEngine的种子程序为单词(
W
->
CW
SW
CAP
)和许多其他标记(如
SPECIAL
for-或$)创建注释。这意味着还有一个RutaBasic注释,字典查找可以区分这些标记。因此,老虎和猴子应该被注释,你问题中的例子应该实际有效(我测试了它)。您可能需要进行一些后交叉,以便在
动物中包含
特殊的

我必须提到,在字典查找(多树单词列表,TRIE)中还可以使用编辑距离。然而,这一功能已经好几年没有维护了。它还应支持特定替换的不同重量。我不知道这是否算作模糊性


免责声明:我是UIMA Ruta的开发者

@PeterKluegl您能在这里提供帮助吗?是的,我将在接下来的几天内添加一个答案。