Java Lucene 4-如何丢弃索引中的数字项?
在使用索引之前,我使用解析xml文档 这是提卡部分:Java Lucene 4-如何丢弃索引中的数字项?,java,lucene,apache-tika,standardanalyzer,Java,Lucene,Apache Tika,Standardanalyzer,在使用索引之前,我使用解析xml文档 这是提卡部分: BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(f); ParseContext pcontext = new ParseContext(); //Xml parse
BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(f);
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
return handler.toString();// return simple text
我使用带有停止词列表的StandardAnalyzer标记我的文档:
analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET); // using stop words
我可以因为不需要而放弃数字术语吗
感谢您的帮助。类似的回答,希望能涵盖您的场景?
TokenStream ts=components.getTokenStream();Set filteredTypes=new HashSet();filteredTypes.add(“”);TypeTokenFilter numberFilter=newTypeTokenFilter(Version.LUCENE_46,ts,filteredTypes)代码>他使用TokenFilter来忽略数字项。谢谢你的帮助。这不是真的有用,我不需要使用porterStem分析器,但我只需要过滤一个数字术语。忽略词干分析器部分,只使用你刚才粘贴的代码。好的,我会试试这个,谢谢