Ms word 带有轨迹更改的docx在Apache Tika中产生不正确的输出_Ms Word_Apache Tika

Ms word 带有轨迹更改的docx在Apache Tika中产生不正确的输出

ms-word

Ms word 带有轨迹更改的docx在Apache Tika中产生不正确的输出,ms-word,apache-tika,Ms Word,Apache Tika,我正在使用apachetika解析docx文件 AutoDetectParser parser = new AutoDetectParser(); ContentHandler contentHandler = new BodyContentHandler(); inputStream = new BufferedInputStream(new FileInputStream(inputFileName)); Metadata metadata = new Metadata(); Office

我正在使用apachetika解析docx文件

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();

OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());

当我发送track_修订的docx文件时，它会添加所有删除的文本以及实际文本和插入的文本。有没有办法告诉解析器排除删除的文本？

我确实找到了答案

AutoDetectParser=新的AutoDetectParser（）；
ContentHandler ContentHandler=新的BodyContentHandler（）；
inputStream=新的BufferedInputStream（新文件inputStream（inputFileName））；
元数据=新元数据（）；
ParseContext ParseContext=新建ParseContext（）；
OfficeParserConfig OfficeParserConfig=新建OfficeParserConfig（）；
officeParserConfig.setUseSAXDocxExtractor（true）；
officeParserConfig.setIncludeDeletedContent（false）；
set（OfficeParserConfig.class，OfficeParserConfig）；
parse（inputStream、contentHandler、元数据、parseContext）；
System.out.println（contentHandler.toString（））这是有效的。您有关于SAX Docx提取器的更多信息吗？文件中提到它是“实验性的”。你知道为什么吗？如果我设置了setUseSAXDocxExtractor（true）
，我应该注意哪些用例？回购协议中有一个PR需要合并。除此之外，我不确定