Ms word 带有轨迹更改的docx在Apache Tika中产生不正确的输出

Ms word 带有轨迹更改的docx在Apache Tika中产生不正确的输出,ms-word,apache-tika,Ms Word,Apache Tika,我正在使用apachetika解析docx文件 AutoDetectParser parser = new AutoDetectParser(); ContentHandler contentHandler = new BodyContentHandler(); inputStream = new BufferedInputStream(new FileInputStream(inputFileName)); Metadata metadata = new Metadata(); Office

我正在使用apachetika解析docx文件

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();

OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());
当我发送track_修订的docx文件时,它会添加所有删除的文本以及实际文本和插入的文本。有没有办法告诉解析器排除删除的文本?

我确实找到了答案

AutoDetectParser=新的AutoDetectParser();
ContentHandler ContentHandler=新的BodyContentHandler();
inputStream=新的BufferedInputStream(新文件inputStream(inputFileName));
元数据=新元数据();
ParseContext ParseContext=新建ParseContext();
OfficeParserConfig OfficeParserConfig=新建OfficeParserConfig();
officeParserConfig.setUseSAXDocxExtractor(true);
officeParserConfig.setIncludeDeletedContent(false);
set(OfficeParserConfig.class,OfficeParserConfig);
parse(inputStream、contentHandler、元数据、parseContext);

System.out.println(contentHandler.toString())这是有效的。您有关于SAX Docx提取器的更多信息吗?文件中提到它是“实验性的”。你知道为什么吗?如果我设置了
setUseSAXDocxExtractor(true)
,我应该注意哪些用例?回购协议中有一个PR需要合并。除此之外,我不确定