Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java SAX解析器是否跳过一些不需要解析的元素?_Java_Parsing_Sax - Fatal编程技术网

Java SAX解析器是否跳过一些不需要解析的元素?

Java SAX解析器是否跳过一些不需要解析的元素?,java,parsing,sax,Java,Parsing,Sax,所以,我有一个像 <root> <transaction ts="1"> <abc><def></def></abc> </transaction> <transaction ts="2"> <abc><def></def></abc> </transaction> </root> 所以,我有

所以,我有一个像

<root>
  <transaction ts="1">
    <abc><def></def></abc>
  </transaction>
  <transaction ts="2">
    <abc><def></def></abc>
  </transaction>
</root>

所以,我有一个条件,它说如果ts=“2”,然后做些什么。。。现在的问题是,当它找到ts=“1”时,它仍然会扫描标记,然后到达

当条件与解析中断不匹配时,有没有办法直接查找下一个事务标记

当条件与解析中断和 直接查找下一个事务标记


不需要。您必须编写SAX解析器才能知道何时跳过查看坏事务块中的标记。也就是说,您可能会发现切换到比SAX更容易执行类似的操作。

SAX解析器总是为每个XML元素调用回调。

一旦检测到要忽略的条件,您可以通过设置字段来解决问题。然后,在其他sax回调中,您检查
isIgnoreCurrentTransaction
amd在这种情况下什么也不做。

您可以在sax实现中使用一个控制标志,当您在某个标记上检测到您的情况时,该标志将被触发,并在退出该标记后再次降低该标志。当解析器遍历您不感兴趣的标记的子项时,可以使用该标志跳过任何处理


但是请注意,您的示例XML无效。如注释中所述,在使用SAX实现处理标记之前,需要使用正确的标记嵌套。

SAX解析器必须扫描所有子树(如“”),以了解下一个元素从何处开始。无法绕过它,这也是您无法为单个XML文档并行化XML解析器的原因

在您的案例中,我能想到的唯一两种调优方法是:

1) 如果有许多XML文档要解析,那么可以在其自己的线程中为每个文档运行一个解析器。这将至少使整个工作并行化,并利用所有可用的CPU和内核

2) 如果您只需要读取某个条件(如您提到的),则可以在达到该条件后立即跳过解析。如果跳过解析器会有所帮助,那么方法是抛出异常

ContentHandler
中实现
startElement
,如下所示:

public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException {
    if(atts == null) return;
        if(localName.equals("transaction") && "2".equals(atts.getValue("ts"))) {
            // TODO: Whatever should happen when condition is reached
            throw new SAXException("Condition reached. Just skip rest of parsing");
        }
    }

您不能更改生成文件的内容,以确保它首先生成有效的XML吗?请注意,即使是“ts=2”元素也是无效的……这是无效的XML。
的嵌套无效。这真的是XML的样子吗?我猜是的,而且您的SAX解析器忽略了结束标记,这可能会导致您看到的行为。啊。。不要担心XML的有效性它是一个有效的XML..但即使在这种情况下。。它
将正确地查看元素一次,然后当它看到isIgnoreCurrentTransaction标志时,将其设置为
将跳过它。。但是它仍然会遍历标记,看看是否设置了标记是的sax总是遍历所有元素,在startElemnt()、endElement()和characters()中的Saxhandler中忽略它们是您的工作您可以提供示例代码或指向示例源代码的链接吗?