正则表达式:是否有AND运算符?

显然,您可以使用|(管道?)来表示OR,但是否也有方法表示AND

具体来说,我想匹配包含某个短语的所有文本段落,但没有特定的顺序。

1100846 次浏览

顺序总是隐含在正则表达式的结构中。为了完成您想要的,您必须针对不同的表达式多次匹配输入字符串。

你想做的是没有可能用一个正则表达式。

在您的情况下,是否不可能对多个匹配结果进行AND?在伪代码中

regexp_match(pattern1, data) && regexp_match(pattern2, data) && ...

使用非消耗正则表达式。

典型的(即Perl/Java)表示法是:

(?=exr)

这意味着“匹配exr,但之后在原始匹配点继续匹配”。

你可以随心所欲地执行这些操作,这将是一个“and”。示例:

(?=match this expression)(?=match this too)(?=oh, and this)

如果需要在其中保存一些数据,您甚至可以在非消耗表达式中添加捕获组。

如果您使用Perl正则表达式,您可以使用积极的前瞻性:

例如

(?=[1-9][0-9]{2})[0-9]*[05]\b

是大于100且能被5整除的数

您可以使用正则表达式来做到这一点,但可能还需要其他一些。例如,使用几个正则表达式并将它们组合在一个if子句中。

您可以使用标准正则表达式枚举所有可能的排列,如下所示(以任何顺序匹配a、b和c):

(abc)|(bca)|(acb)|(bac)|(cab)|(cba)

但是,如果您有多个术语,这会产生非常长且可能效率低下的regexp。

如果您使用的是一些扩展的regexp版本,例如Perl或Java,他们有更好的方法来做到这一点。其他答案建议使用积极的前瞻性操作。

正如其他一些响应者所说,您需要使用展望,但展望必须考虑其目标单词和当前匹配位置之间的其他字符。例如:

(?=.*word1)(?=.*word2)(?=.*word3)

第一个预览中的.*允许它在到达“word1”之前匹配它需要的任何字符。然后匹配位置被重置,第二个预览查找“word2”。再次重置,最后一部分匹配“word3”;因为它是你要检查的最后一个单词,所以它不需要在预览中,但它不会伤害。

为了匹配整个段落,您需要在两端锚定正则表达式并添加最后的.*来使用剩余的字符。使用Perl风格的表示法,这将是:

/^(?=.*word1)(?=.*word2)(?=.*word3).*$/m

'm'修饰符用于多行模式;它允许^$在段落边界(正则表达式中的“行边界”)匹配。在这种情况下,您必须使用's'修饰符,它允许点元字符匹配换行符以及所有其他字符。

最后,你要确保匹配的是整个单词,而不仅仅是较长单词的片段,所以你需要添加单词边界:

/^(?=.*\bword1\b)(?=.*\bword2\b)(?=.*\bword3\b).*$/m

看看这个例子:

我们有2个正则表达式A和B,我们想匹配它们,所以在伪代码中它看起来像这样:

pattern = "/A AND B/"

它可以在不使用AND运算符的情况下编写,如下所示:

pattern = "/NOT (NOT A OR NOT B)/"

在PCRE:

"/(^(^A|^B))/"
regexp_match(pattern,data)

在正则表达式之外使用AND。在PHP中,前瞻运算符似乎不适合我,相反,我使用了这个

if( preg_match("/^.{3,}$/",$pass1) && !preg_match("/\s{1}/",$pass1))return true;elsereturn false;

如果密码长度为3个字符或以上并且密码中没有空格,则上述正则表达式将匹配。

为什么不用awk呢?
用awk正则表达式AND,OR问题就是这么简单

awk '/WORD1/ && /WORD2/ && /WORD3/' myfile

AND运算符在RegExp语法中为隐式
OR运算符必须用管道指定。
以下RegExp:

var re = /ab/;

表示字母a字母b
它也适用于组:

var re = /(co)(de)/;

表示组code
用OR替换(隐式)AND需要以下行:

var re = /a|b/;var re = /(co)|(de)/;

你可以将输出管道传输到另一个正则表达式。使用grep,你可以这样做:

grep A | grep B

除了公认的答案

我会给你们提供一些实际的例子,让你们中的一些人更清楚。例如,我们有这三行文本:

[12/Oct/2015:00:37:29 +0200] // only this + will get selected[12/Oct/2015:00:37:x9 +0200][12/Oct/2015:00:37:29 +020x]

在此处查看演示演示

我们在这里要做的是选择+号,但前提是它在两个带空格的数字之后并且在四个数字之前。这些是唯一的约束。我们将使用这个正则表达式来实现它:

'~(?<=\d{2} )\+(?=\d{4})~g'

注意,如果你分离表达式,它会给你不同的结果。

或者也许您想在标签之间选择一些文本…但不是标签!然后您可以使用:

'~(?<=<p>).*?(?=<\/p>)~g'

对于本文:

<p>Hello !</p> <p>I wont select tags! Only text with in</p>

在此处查看演示演示

((yes).*(no))|((no).*(yes))

将匹配同时具有yesno的句子,无论它们出现的顺序如何:

Do i like cookies? **Yes**, i do. But milk - **no**, definitely no.

**No**, you may not have my phone. **Yes**, you may go f yourself.

两者都匹配,忽略大小写。

这是“and”运算符的一个可能的“形式”:

以下面的regex为例:

如果我们想匹配没有“e”字符的单词,我们可以这样做:

/\b[^\We]+\b/g
  • \W表示不是“单词”字符。
  • ^\W表示“单词”字符。
  • [^\We]表示“单词”字符,但不是“e”。

在行动中看到它:没有e的词

"和"正则表达式的运算符

我认为这个模式可以用作正则表达式的“”运算符。

一般来说,如果:

  • A = not a
  • B = not b

然后:

[^AB] = not(A or B)= not(A) and not(B)= a and b

差异集

所以,如果我们想在正则表达式中实现差异集的概念,我们可以这样做:

a - b = a and not(b)= a and B= [^Ab]