Java Lucene 4-如何丢弃索引中的数字项？_Java_Lucene_Apache Tika_Standardanalyzer

Java Lucene 4-如何丢弃索引中的数字项？

java lucene

Java Lucene 4-如何丢弃索引中的数字项？,java,lucene,apache-tika,standardanalyzer,Java,Lucene,Apache Tika,Standardanalyzer,在使用索引之前，我使用解析xml文档这是提卡部分： BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(f); ParseContext pcontext = new ParseContext(); //Xml parse

在使用索引之前，我使用解析xml文档

这是提卡部分：

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text

我使用带有停止词列表的StandardAnalyzer标记我的文档：

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words

我可以因为不需要而放弃数字术语吗

感谢您的帮助。

类似的回答，希望能涵盖您的场景？

TokenStream ts=components.getTokenStream（）；Set filteredTypes=new HashSet（）；filteredTypes.add（“”）；TypeTokenFilter numberFilter=newTypeTokenFilter（Version.LUCENE_46，ts，filteredTypes）他使用TokenFilter来忽略数字项。谢谢你的帮助。这不是真的有用，我不需要使用porterStem分析器，但我只需要过滤一个数字术语。忽略词干分析器部分，只使用你刚才粘贴的代码。好的，我会试试这个，谢谢