Java Regex捕获组 - 开卷题库

小开

你的理解是正确的。然而，如果我们走过:

(.*)将吞下整个字符串;
它将需要返回字符以满足(\\d+)(这就是为什么0被捕获，而不是3000);
最后的(.*)将捕获剩下的。

但是，我不知道作者的初衷是什么。

小开

医生说:

Capturing groups</a> are indexed from left
* to right, starting at one.  Group zero denotes the entire pattern, so
* the expression m.group(0) is equivalent to m.group().

捕获组0发送整条线。

小开

这完全没问题。

第一组(m.group(0))总是捕获正则表达式所覆盖的整个区域。在这种情况下，它是整个字符串。
正则表达式在默认情况下是贪婪的，这意味着第一组在不违反正则表达式的情况下捕获尽可能多的内容。(.*)(\\d+)(正则表达式的第一部分)涵盖第一组中的...QT300和第二组中的0。
你可以通过使第一组非贪婪来快速解决这个问题:将(.*)更改为(.*?)。

有关贪婪vs.懒惰的更多信息，请查看这个网站。

小开

最佳答案

你遇到的问题是量词的类型。你在第一个组中使用了贪婪的量词(索引1 -索引0表示整个Pattern)，这意味着它将尽可能多地匹配(由于它是任何字符，它将匹配尽可能多的字符，以便满足下一个组的条件)。

简而言之，你的第一个组.*匹配任何东西，只要下一个组\\d+可以匹配某些东西(在这种情况下，是最后一位数字)。

根据第三组，它将匹配最后一位数字之后的任何数字。

如果你在你的第一个组中把它改成不情愿的量词，你会得到你所期望的结果，也就是3000部分。

注意第一组中的问号。

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
System.out.println("group 1: " + matcher.group(1));
System.out.println("group 2: " + matcher.group(2));
System.out.println("group 3: " + matcher.group(3));
}

输出:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

关于Java Pattern 在这里的更多信息。

最后，捕获组由圆括号分隔，并提供了一种非常有用的方式来使用反向引用(以及其他)，一旦你的Pattern匹配到输入。

在Java 6中，组只能按顺序引用(注意嵌套组和顺序的微妙性)。

在Java 7中，这要容易得多，因为您可以使用命名组。