Java 标记化化合物

Java 标记化化合物,java,lucene,tokenize,Java,Lucene,Tokenize,我是Lucene的新手,所以我在征求意见 我的项目应该标记不同的化学(主要是有机)化合物,以及其他单词。 在过去,我将StopAnalyzer与stopWords字典一起使用,但现在我不能这样做,因为它标记了非字母符号。 我找不到所有TokenFilter类型的描述,也不知道如何做到这一点。 我正在考虑实现一个新的lucene标记化类并将其添加到该类中,但是我不明白如何在我的类中使用公共标记化器 请告知 文本示例: 本发明涉及水的新晶型 4,4'-[4-氟-7-({4-[4-(3-氟-2-甲基苯

我是Lucene的新手,所以我在征求意见

我的项目应该标记不同的化学(主要是有机)化合物,以及其他单词。 在过去,我将StopAnalyzer与stopWords字典一起使用,但现在我不能这样做,因为它标记了非字母符号。 我找不到所有TokenFilter类型的描述,也不知道如何做到这一点。 我正在考虑实现一个新的lucene标记化类并将其添加到该类中,但是我不明白如何在我的类中使用公共标记化器

请告知

文本示例:

本发明涉及水的新晶型 4,4'-[4-氟-7-({4-[4-(3-氟-2-甲基苯基)丁氧基]苯基}乙炔基)-2-甲基-1H-吲哚-1,3-二酰基]二丁酯 酸(以下简称化合物I), 4,4'-[2-甲基-7-({4-[4-(五氟苯基)丁氧基]苯基}乙炔基)-1H-吲哚-1,3-二酰基]二丁酯 酸(以下有时缩写为化合物II),以及 4,4'-[4-氟-2-甲基-7-({4-[4-(2,3,4,6-四氟苯基)丁氧基]苯基}乙炔基)-1H-吲哚-1,3-二酰基]二丁烷酸 酸(以下有时缩写为化合物III)