Java Lucene 4-如何丢弃索引中的数字项?

Java Lucene 4-如何丢弃索引中的数字项?,java,lucene,apache-tika,standardanalyzer,Java,Lucene,Apache Tika,Standardanalyzer,在使用索引之前,我使用解析xml文档 这是提卡部分: BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(f); ParseContext pcontext = new ParseContext(); //Xml parse

在使用索引之前,我使用解析xml文档

这是提卡部分:

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text
我使用带有停止词列表的StandardAnalyzer标记我的文档:

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words
我可以因为不需要而放弃数字术语吗


感谢您的帮助。

类似的回答,希望能涵盖您的场景?
TokenStream ts=components.getTokenStream();Set filteredTypes=new HashSet();filteredTypes.add(“”);TypeTokenFilter numberFilter=newTypeTokenFilter(Version.LUCENE_46,ts,filteredTypes)他使用TokenFilter来忽略数字项。谢谢你的帮助。这不是真的有用,我不需要使用porterStem分析器,但我只需要过滤一个数字术语。忽略词干分析器部分,只使用你刚才粘贴的代码。好的,我会试试这个,谢谢