Java Lucene标记化器

Java Lucene标记化器,java,lucene,tokenize,n-gram,Java,Lucene,Tokenize,N Gram,我正在尝试将字符串标记为ngram。奇怪的是,在的文档中,我没有看到一个方法可以返回标记化的各个ngram。事实上,我在NGramTokenizer类中只看到两个返回字符串对象的方法 以下是我的代码: Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3); 标记化的ngram在哪里 如何获得字符串/单词的

我正在尝试将字符串标记为ngram。奇怪的是,在的文档中,我没有看到一个方法可以返回标记化的各个ngram。事实上,我在NGramTokenizer类中只看到两个返回字符串对象的方法

以下是我的代码:

Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
  • 标记化的ngram在哪里
  • 如何获得字符串/单词的输出

  • 我希望我的输出是这样的:这,是,a,测试,字符串,这是,是,测试,测试字符串,这是,是测试,测试字符串。

    如果不创建测试程序,我猜incrementToken()将返回下一个标记,它将是NGRAM之一

    例如,将ngram长度1-3与字符串“abcd”一起使用,NGramTokenizer可以返回:

    a
    a b
    a b c
    b
    b c
    b c d
    c
    c d
    d
    
    其中,“a”、“a b”等是生成的NGRAM

    [编辑]


    您可能还想看看,因为它谈到了窥探令牌流。

    我认为您无法找到您想要的内容,因为您试图找到返回字符串的方法。你需要和s打交道

    应该像这样工作:

    Reader reader = new StringReader("This is a test string");
    NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
    CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);
    gramTokenizer.reset();
    
    while (gramTokenizer.incrementToken()) {
        String token = charTermAttribute.toString();
        //Do something
    }
    gramTokenizer.end();
    gramTokenizer.close();
    
    但是,如果需要在此之后重新使用标记器,请确保重置()标记器


    根据注释标记化单词分组,而不是字符:

    Reader reader = new StringReader("This is a test string");
    TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36, reader);
    tokenizer = new ShingleFilter(tokenizer, 1, 3);
    CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);
    
    while (tokenizer.incrementToken()) {
        String token = charTermAttribute.toString();
        //Do something
    }
    

    对于Lucene的最新版本(4.2.1),这是一个干净的代码。在执行此代码之前,必须导入2个jar文件:

    • lucene-core-4.2.1.jar
    • lucene-analuzers-common-4.2.1.jar
    在以下位置查找这些文件:

    包ngramalgoimpl;
    导入java.util.*;
    公共类ngr{
    公共静态列表n_g(int n,String str){
    列表n_grams=new ArrayList();
    String[]words=str.split(“”);
    for(int i=0;i开始?):“)+单词[i];
    使某人返回字符串();
    }
    公共静态void main(字符串[]args){
    
    对于(int n=1;n在属性方面,我可以用字符串而不是字符做什么?那么我的输出应该是这样的:这个,是,一个,测试,字符串,这个是,是,一个测试,一个测试字符串。好吧,这不是Lucene的NGramTokenizer设计用来处理的。我想,你想要使用的是一个结合了标准化标记器的ShingleFilter。我会更新我的答案,更容易表达…你知道我可以在标记化过程中使用的任何停止词过滤器吗?我想标准是。另一个非常典型的过滤器是,顺便说一句。我认为标准过滤器,然后停止过滤器,然后ShingleFilter可能会得到很好的结果。看了我在volving the StopFilter:请提供上下文,这段代码是做什么的,以及它如何提供问题的答案?@KevinKloet查看问题和给出的答案
    //LUCENE 4.2.1
    Reader reader = new StringReader("This is a test string");      
    NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
    
    CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);
    
    while (gramTokenizer.incrementToken()) {
        String token = charTermAttribute.toString();
        System.out.println(token);
    }
    
    package ngramalgoimpl;
    import java.util.*;
    
    public class ngr {
    
        public static List<String> n_grams(int n, String str) {
            List<String> n_grams = new ArrayList<String>();
            String[] words = str.split(" ");
            for (int i = 0; i < words.length - n + 1; i++)
                n_grams.add(concatination(words, i, i+n));
            return n_grams;
        }
         /*stringBuilder is used to cancatinate mutable sequence of characters*/
        public static String concatination(String[] words, int start, int end) {
            StringBuilder sb = new StringBuilder();
            for (int i = start; i < end; i++)
                sb.append((i > start ? " " : "") + words[i]);
            return sb.toString();
        }
    
        public static void main(String[] args) {
            for (int n = 1; n <= 3; n++) {
                for (String ngram : n_grams(n, "This is my car."))
                    System.out.println(ngram);
                System.out.println();
            }
        }
    }