Java Lucene标记化器_Java_Lucene_Tokenize_N Gram

Java Lucene标记化器

java lucene

Java Lucene标记化器,java,lucene,tokenize,n-gram,Java,Lucene,Tokenize,N Gram,我正在尝试将字符串标记为ngram。奇怪的是，在的文档中，我没有看到一个方法可以返回标记化的各个ngram。事实上，我在NGramTokenizer类中只看到两个返回字符串对象的方法以下是我的代码： Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3); 标记化的ngram在哪里如何获得字符串/单词的

我正在尝试将字符串标记为ngram。奇怪的是，在的文档中，我没有看到一个方法可以返回标记化的各个ngram。事实上，我在NGramTokenizer类中只看到两个返回字符串对象的方法

以下是我的代码：

Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);

标记化的ngram在哪里

如何获得字符串/单词的输出

我希望我的输出是这样的：这，是，a，测试，字符串，这是，是，测试，测试字符串，这是，是测试，测试字符串。

如果不创建测试程序，我猜incrementToken（）将返回下一个标记，它将是NGRAM之一

例如，将ngram长度1-3与字符串“abcd”一起使用，NGramTokenizer可以返回：

a
a b
a b c
b
b c
b c d
c
c d
d

其中，“a”、“a b”等是生成的NGRAM

[编辑]

您可能还想看看，因为它谈到了窥探令牌流。

我认为您无法找到您想要的内容，因为您试图找到返回字符串的方法。你需要和s打交道

应该像这样工作：

Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);
gramTokenizer.reset();

while (gramTokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    //Do something
}
gramTokenizer.end();
gramTokenizer.close();

但是，如果需要在此之后重新使用标记器，请确保重置（）标记器

根据注释标记化单词分组，而不是字符：

Reader reader = new StringReader("This is a test string");
TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36, reader);
tokenizer = new ShingleFilter(tokenizer, 1, 3);
CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);

while (tokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    //Do something
}

对于Lucene的最新版本（4.2.1），这是一个干净的代码。在执行此代码之前，必须导入2个jar文件：

lucene-core-4.2.1.jar
lucene-analuzers-common-4.2.1.jar

在以下位置查找这些文件：

包ngramalgoimpl；
导入java.util.*；
公共类ngr{
公共静态列表n_g（int n，String str）{
列表n_grams=new ArrayList（）；
String[]words=str.split（“”）；
for（int i=0；i开始？）：“）+单词[i]；
使某人返回字符串（）；
}
公共静态void main（字符串[]args）{
对于（int n=1；n在属性方面，我可以用字符串而不是字符做什么？那么我的输出应该是这样的：这个，是，一个，测试，字符串，这个是，是，一个测试，一个测试字符串。好吧，这不是Lucene的NGramTokenizer设计用来处理的。我想，你想要使用的是一个结合了标准化标记器的ShingleFilter。我会更新我的答案，更容易表达…你知道我可以在标记化过程中使用的任何停止词过滤器吗？我想标准是。另一个非常典型的过滤器是，顺便说一句。我认为标准过滤器，然后停止过滤器，然后ShingleFilter可能会得到很好的结果。看了我在volving the StopFilter：请提供上下文，这段代码是做什么的，以及它如何提供问题的答案？@KevinKloet查看问题和给出的答案
//LUCENE 4.2.1
Reader reader = new StringReader("This is a test string");      
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);

CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);

while (gramTokenizer.incrementToken()) {
    String token = charTermAttribute.toString();
    System.out.println(token);
}

package ngramalgoimpl;
import java.util.*;

public class ngr {

    public static List<String> n_grams(int n, String str) {
        List<String> n_grams = new ArrayList<String>();
        String[] words = str.split(" ");
        for (int i = 0; i < words.length - n + 1; i++)
            n_grams.add(concatination(words, i, i+n));
        return n_grams;
    }
     /*stringBuilder is used to cancatinate mutable sequence of characters*/
    public static String concatination(String[] words, int start, int end) {
        StringBuilder sb = new StringBuilder();
        for (int i = start; i < end; i++)
            sb.append((i > start ? " " : "") + words[i]);
        return sb.toString();
    }

    public static void main(String[] args) {
        for (int n = 1; n <= 3; n++) {
            for (String ngram : n_grams(n, "This is my car."))
                System.out.println(ngram);
            System.out.println();
        }
    }
}