我的正则表达式在Java中导致堆栈溢出;我错过了什么?

我的正则表达式在Java中导致堆栈溢出;我错过了什么?,java,regex,string,stack-overflow,Java,Regex,String,Stack Overflow,我正在尝试使用带有Scanner的正则表达式来匹配文件中的字符串。正则表达式适用于文件的所有内容,但此行除外: DNA="ITTTAITATIATYAAAYIYI[....]ITYTYITTIYAIAIYIT" 在实际文件中,省略号表示数千个以上的字符 当读取文件的循环到达包含基的行时,会发生堆栈溢出错误 以下是循环: while (scanFile.hasNextLine()) { final String currentLine = scanFile.findInLine(".*")

我正在尝试使用带有Scanner的正则表达式来匹配文件中的字符串。正则表达式适用于文件的所有内容,但此行除外:

DNA="ITTTAITATIATYAAAYIYI[....]ITYTYITTIYAIAIYIT"
在实际文件中,省略号表示数千个以上的字符

当读取文件的循环到达包含基的行时,会发生堆栈溢出错误

以下是循环:

while (scanFile.hasNextLine()) {
   final String currentLine = scanFile.findInLine(".*");
   System.out.println("trying to match '" + currentLine + "'");
   Scanner internalScanner = new Scanner(currentLine);
   String matchResult = internalScanner.findInLine(Constants.ANIMAL_INFO_REGEX);
   assert matchResult != null : "there's no reason not to find a match"; 
   matches.put(internalScanner.match().group(1), internalScanner.match().group(2));
   scanFile.nextLine();
  }
而正则表达式:

static final String ANIMAL_INFO_REGEX = "([a-zA-Z]+) *= *\"(([a-zA-Z_.]| |\\.)+)";
以下是故障跟踪:

java.lang.StackOverflowError
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3360)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    ...etc (it's all regex).

非常感谢

试试这个简化版的正则表达式,它删除了一些不必要的
|
操作符(这可能导致正则表达式引擎进行了大量分支),并包括了行的起始和结束锚

static final String ANIMAL_INFO_REGEX = "^([a-zA-Z]+) *= *\"([a-zA-Z_. ]+)\"$";
这看起来像。我同意亚萨的观点,移除交替应该会有所帮助;该bug特别指出“尽可能避免交替”。我认为你可以做得更简单:

"^([a-zA-Z]+) *= *\"([^\"]+)"

阅读以下内容以了解问题:。。。然后使用其他建议之一

正如其他人所说,您的正则表达式的效率远远低于其应有的效率。我会更进一步,使用所有格量词:

"^([a-zA-Z]++) *+= *+\"([^\"]++)\"$"
但是你使用扫描仪的方式也没有多大意义。无需使用
findInLine(“.*”)
来读取该行;这就是
nextLine()
所做的。你不需要再创建一个扫描器来应用你的正则表达式;用火柴就行了

static final Pattern ANIMAL_INFO_PATTERN = 
    Pattern.compile("^([a-zA-Z]++) *+= *+\"([^\"]++)\"$");


我可以看出,这会导致您的堆栈溢出…:P+1,但我想强调的是,错误报告是假的。评估中的备注适用于任何正则表达式定向(或NFA)正则表达式引擎,而不仅仅是Java引擎。(包括Perl、Python、PHP、.NET、JavaScript和许多其他语言。)
  Matcher lineMatcher = ANIMAL_INFO_PATTERN.matcher("");
  while (scanFile.hasNextLine()) {
    String currentLine = scanFile.nextLine();
    if (lineMatcher.reset(currentLine).matches()) {
      matches.put(lineMatcher.group(1), lineMatcher.group(2));
    }
  }