关于regex：是否有正则表达式检测有效的正则表达式？

Is there a regular expression to detect a valid regular expression?

是否可以用另一个正则表达式检测有效的正则表达式？如果是，请给出下面的示例代码。

上面的内容在实践中可能有用，也可能不有用(我没有详细地回顾过它们，我也不是一个特别好的判断者)，但是从形式上讲，IIRC(至少有些)正则表达式语言是图灵完备的，因此，不可能构建一个能够正确评估这些语言中所有可能正则表达式正确性的测试人员。通用电气公司。见G&246；德尔不完全定理和丘奇图灵论文。
谁验证验证regex？
@尼科社区。
@nico quis regexiet ipsos regexes？
在道格拉斯·克罗克福德的一次谈话中，我见过用javascript解析regex的regex。
所以您的问题是验证一个regex，您选择了一个regex来解决它。我想知道regex的问题数递增属性是加性的还是乘性的。感觉像是4个问题而不是2个：)
正则表达式有许多符号——一些特征及其拼写对大多数人来说都是通用的，有些是以不同的方式拼写，或者只有一个特定的符号才可用。在常规语法意义上，大多数符号都不是"常规的"——您需要一个上下文无关的解析器来处理子表达式的无边界嵌套——尽管许多现代的"正则表达式"符号具有超出原始形式定义的扩展，并且可能允许识别它们自己的符号。在任何情况下，为什么不简单地询问您的regex库，看看每个regex是否有效？
@尼科-一直都是雷格克斯。
@多项式肯定是"quis testificari ipsos regex？"会更好。
我只看到了这个问题，但很多年前，我编写了一个perl regex来验证perl regex(同时还检测到用于删除的"危险"操作)。在马库斯·贾德罗特的回答中，这个时间比雷杰克斯要长一些！我当时认为它是完整的，但我没有其他人测试过。
我听说你喜欢正则表达式…
@我需要在XML模式中验证regexp。没有另一个regexp我怎么做？
不，没有；这将在时空中创造一个奇点，摧毁我们所知的宇宙。
在某些情况下，您可以使用第三方服务，如在线regex测试仪和调试器：regex101.com
播音员：下周收听……"是否存在检测有效Perl脚本的正则表达式？"
使我想起哥德尔不完全性定理。试图通过镜子里的自己来证明你是完美的，是吗？你需要那个人的外部确认。
谁验证验证器？谁在看守望者？
是否还有一个regex来验证用于验证regex的regex是否有效？是否也有一个regex来验证这一点？
在这一点上，开始是强有力的。
这是正确的答案

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

/
^ # start of string
( # first group start
(?:
(?:[^?+*{}()[\]\\|]+ # literals and ^, $
| \\. # escaped characters
| \[ (?: \^?\\. | \^[^\\] | [^\\^] ) # character classes
(?: [^\]\\]+ | \\. )* \]
| $ (?:\?[:=!]|\?<[=!]|\?>)? (?1)?? $ # parenthesis, with recursive content
| $\? (?:R|[+-]?\d+) $ # recursive matching
)
(?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \| # alternative
)* # repeat content
) # end first group
$ # end of string
/

这是一个递归regex，许多regex引擎不支持它。基于PCRE的应该支持它。

没有空格和注释：

1	/^((?:(?:[^?+{}()[\]\\\|]+\|\\.\|\[(?:\^?\\.\|\^[^\\]\|[^\\^])(?:[^\]\\]+\|\\.)\]\|$(?:\?[:=!]\|\?<[=!]\|\?>)?(?1)??$\|$\?(?:R\|[+-]?\d+)$)(?:(?:[?+]\|\{\d+(?:,\d)?\})[?+]?)?\|\\|)*)$/

.NET不直接支持递归。((?1)和(?R)构造)递归必须转换为计数平衡组：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

^ # start of string
(?:
(?: [^?+*{}()[\]\\|]+ # literals and ^, $
| \\. # escaped characters
| \[ (?: \^?\\. | \^[^\\] | [^\\^] ) # character classes
(?: [^\]\\]+ | \\. )* \]
| $ (?:\?[:=!]
| \?<[=!]
| \?>
| \?<[^\W\d]\w*>
| \?'[^\W\d]\w*'
)? # opening of group
(?<N>) # increment counter
| $ # closing of group
(?<-N>) # decrement counter
)
(?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \| # alternative
)* # repeat content
$ # end of string
(?(N)(?!)) # fail if counter is non-zero.

压实的：

1	^(?:(?:[^?+{}()[\]\\\|]+\|\\.\|\[(?:\^?\\.\|\^[^\\]\|[^\\^])(?:[^\]\\]+\|\\.)\]\|$(?:\?[:=!]\|\?<[=!]\|\?>\|\?<[^\W\d]\w>\|\?'[^\W\d]\w')?(?<N>)\|$(?<-N>))(?:(?:[?+]\|\{\d+(?:,\d)?\})[?+]?)?\|\\|)*$(?(N)(?!))

相关讨论

这会验证替换和翻译吗？
它只验证substitutinos和translations的regex部分。S/<本部分>/……/
投票表决。从理论上讲，不可能将所有有效的regex语法与regex匹配。
Jaredpar：如果regex引擎支持递归(如pcre)，这是可能的，但不能再真正称之为正则表达式。
实际上，"递归正则表达式"不是正则表达式。但这是对regex引擎的一个经常被接受的扩展…具有讽刺意味的是，这个扩展regex与扩展regex不匹配：d
如果它是递归的，它就不是正则表达式。
"理论上，理论和实践是一样的。实际上，它们不是。"几乎所有知道正则表达式的人都知道正则表达式不支持递归。但是PCRE和大多数其他实现支持的不仅仅是基本的正则表达式。
你好。。。。这么晚了……我在找这样的……但是使用grep命令中的shell脚本时，会显示一些错误。grep:无效的内容。请你帮忙，我正在编写一个脚本，它可以对代码库进行grep，以查找包含正则表达式的所有文件…事先谢谢……
@在此模式下，xander使用一个名为递归正则表达式的扩展。这不受regex的posix风格的支持。您可以尝试使用-P开关，以启用pcre regex风格。如果您需要进一步的帮助，请单独提问。
这就像用regex解析HTML。regex本身"不是常规语言，因此不能由正则表达式解析…"
@小毛，这对于经典正则表达式是正确的。一些现代的实现允许递归，这使得它成为一种上下文无关的语言，尽管这项任务有点冗长。
您的regex通过了regex测试。
我知道你在哪里匹配[]()/\.和其他特殊的regex字符。你在哪里允许非特殊字符？这似乎与^(?:[\.]+)$匹配，但与^abcdefg$不匹配。这是一个有效的正则表达式。
@justinmorgan [^?+*{}()[\]\\|]将匹配任何单个字符，而不是任何其他构造的一部分。这包括文字(a—z)和某些特殊字符(^、$、.。
这个答案使人们完全走错了方向。他们不应该使用regex来定位正则表达式，因为它在所有情况下都不能正常工作。看看我的答案。
由于某种原因，不在C中工作。
@Neolisk.net不直接支持递归。必须将其转换为平衡组。我用.NET版本更新了答案。
@现在它编译并通过了我的基本测试。希望它适用于更复杂的场景。感谢您的更新。投票赞成的
.{,1}是无与伦比的。更改为^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:‌[^\]\\]+|\\.)*\]|$(‌?:\?[:=!]|\?<[=!]|\?‌>)?(?1)??$|$\?(?:R‌|[+-]?\d+)$)(?:(?:[‌?+*]|\{\d*(?:,\d*)?\‌})[?+]?)?|\|)*)$匹配项。将\d+改为\d*。
def的regex不应该有递归，至少在我们的答案中这样说，ur regex引擎可能"太强大了"，而不是真正的regex引擎。
只是你忘了X标志

不太可能。

用try..catch或者你的语言来评估它。

相关讨论

不，如果您严格地谈论正则表达式，而不包括一些实际上是上下文无关语法的正则表达式实现。

正则表达式有一个限制，这使得编写一个只匹配所有正则表达式的正则表达式是不可能的。不能匹配成对的大括号等实现。正则表达式使用许多这样的构造，让我们以[]为例。只要有[必须有匹配的]。对于regex"[.*]"来说足够简单。

使正则表达式不可能的是它们可以嵌套。如何编写与嵌套括号匹配的regex？答案是没有无限长的正则表达式是不可能的。您可以通过蛮力匹配任意数量的嵌套paren，但是您永远无法匹配任意长的嵌套括号集。

这种能力通常被称为计数(您正在计算嵌套的深度)。定义的regex不具有计数功能。

编辑：最后写了一篇关于这个的博客文章：正则表达式限制

相关讨论

问得好。真正的正则语言不能决定任意的嵌套得很好的括号。也就是说，如果您的字母表中包含"("和')"，那么目标是确定其中的字符串是否具有格式良好的匹配括号。因为这是正则表达式的必要条件，所以答案是否定的。

但是：如果您放宽需求并添加递归，那么您可能可以这样做。原因是递归可以充当一个"堆栈"，让您通过推到此堆栈来"计算"当前嵌套深度。

RussCox写了一篇关于regex引擎实现的精彩论文：正则表达式匹配可以简单快速

相关讨论

您可以将regex提交到preg_match，如果regex无效，则返回false。不要忘记使用"@"来禁止显示错误消息：

1	@preg_match($regexToTest, '');

如果regex为"//"，则返回1。
如果regex正常，则返回0。
否则将返回false。

尽管使用Mizardx发布的递归regex是完全可能的，但对于这种情况，解析器更有用。regex最初是用于常规语言的，递归或拥有平衡组只是一个补丁。

定义有效regex的语言实际上是一种上下文无关的语法，您应该使用适当的解析器来处理它。下面是一个大学项目的示例，用于解析简单的正则表达式(不包含大多数构造)。它使用javacc。是的，注释是西班牙语的，尽管方法名是很容易解释的。

SKIP :
{
""
| "
"
| "\t"
| "
"
}
TOKEN :
{
< DIGITO: ["0" -"9"] >
| < MAYUSCULA: ["A" -"Z"] >
| < MINUSCULA: ["a" -"z"] >
| < LAMBDA:"LAMBDA">
| < VACIO:"VACIO">
}

IRegularExpression Expression() :
{
IRegularExpression r;
}
{
r=Alternation() { return r; }
}

// Matchea disyunciones: ER | ER
IRegularExpression Alternation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Concatenation() ("|" r2=Alternation() )?
{
if (r2 == null) {
return r1;
} else {
return createAlternation(r1,r2);
}
}
}

// Matchea concatenaciones: ER.ER
IRegularExpression Concatenation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Repetition() ("." r2=Repetition() { r1 = createConcatenation(r1,r2); } )*
{ return r1; }
}

// Matchea repeticiones: ER*
IRegularExpression Repetition() :
{
IRegularExpression r;
}
{
r=Atom() ("*" { r = createRepetition(r); } )*
{ return r; }
}

// Matchea regex atomicas: (ER), Terminal, Vacio, Lambda
IRegularExpression Atom() :
{
String t;
IRegularExpression r;
}
{
("(" r=Expression()")" {return r;})
| t=Terminal() { return createTerminal(t); }
| <LAMBDA> { return createLambda(); }
| <VACIO> { return createEmpty(); }
}

// Matchea un terminal (digito o minuscula) y devuelve su valor
String Terminal() :
{
Token t;
}
{
( t=<DIGITO> | t=<MINUSCULA> ) { return t.image; }
}

相关讨论

以下例子由paul mcguire编写，最初来自pyparsing wiki，但现在只通过wayback机器提供，它给出了一种语法，用于解析某些regex，以便返回匹配字符串集。因此，它拒绝那些包含无界重复项的re's，比如"+"和"*"。但它应该给您一个关于如何构造将处理re的解析器的概念。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251

#
# invRegex.py
#
# Copyright 2008, Paul McGuire
#
# pyparsing script to expand a regular expression into all possible matching strings
# Supports:
# - {n} and {m,n} repetition, but not unbounded + or * repetition
# - ? optional elements
# - [] character ranges
# - () grouping
# - | alternation
#
__all__ = ["count","invert"]

from pyparsing import (Literal, oneOf, printables, ParserElement, Combine,
SkipTo, operatorPrecedence, ParseFatalException, Word, nums, opAssoc,
Suppress, ParseResults, srange)

class CharacterRangeEmitter(object):
def __init__(self,chars):
# remove duplicate chars in character range, but preserve original order
seen = set()
self.charset ="".join( seen.add(c) or c for c in chars if c not in seen )
def __str__(self):
return '['+self.charset+']'
def __repr__(self):
return '['+self.charset+']'
def makeGenerator(self):
def genChars():
for s in self.charset:
yield s
return genChars

class OptionalEmitter(object):
def __init__(self,expr):
self.expr = expr
def makeGenerator(self):
def optionalGen():
yield""
for s in self.expr.makeGenerator()():
yield s
return optionalGen

class DotEmitter(object):
def makeGenerator(self):
def dotGen():
for c in printables:
yield c
return dotGen

class GroupEmitter(object):
def __init__(self,exprs):
self.exprs = ParseResults(exprs)
def makeGenerator(self):
def groupGen():
def recurseList(elist):
if len(elist)==1:
for s in elist[0].makeGenerator()():
yield s
else:
for s in elist[0].makeGenerator()():
for s2 in recurseList(elist[1:]):
yield s + s2
if self.exprs:
for s in recurseList(self.exprs):
yield s
return groupGen

class AlternativeEmitter(object):
def __init__(self,exprs):
self.exprs = exprs
def makeGenerator(self):
def altGen():
for e in self.exprs:
for s in e.makeGenerator()():
yield s
return altGen

class LiteralEmitter(object):
def __init__(self,lit):
self.lit = lit
def __str__(self):
return"Lit:"+self.lit
def __repr__(self):
return"Lit:"+self.lit
def makeGenerator(self):
def litGen():
yield self.lit
return litGen

def handleRange(toks):
return CharacterRangeEmitter(srange(toks[0]))

def handleRepetition(toks):
toks=toks[0]
if toks[1] in"*+":
raise ParseFatalException("",0,"unbounded repetition operators not supported")
if toks[1] =="?":
return OptionalEmitter(toks[0])
if"count" in toks:
return GroupEmitter([toks[0]] * int(toks.count))
if"minCount" in toks:
mincount = int(toks.minCount)
maxcount = int(toks.maxCount)
optcount = maxcount - mincount
if optcount:
opt = OptionalEmitter(toks[0])
for i in range(1,optcount):
opt = OptionalEmitter(GroupEmitter([toks[0],opt]))
return GroupEmitter([toks[0]] * mincount + [opt])
else:
return [toks[0]] * mincount

def handleLiteral(toks):
lit =""
for t in toks:
if t[0] =="\":
if t[1] =="t":
lit += '\t'
else:
lit += t[1]
else:
lit += t
return LiteralEmitter(lit)

def handleMacro(toks):
macroChar = toks[0][1]
if macroChar =="d":
return CharacterRangeEmitter("0123456789")
elif macroChar =="w":
return CharacterRangeEmitter(srange("[A-Za-z0-9_]"))
elif macroChar =="s":
return LiteralEmitter("")
else:
raise ParseFatalException("",0,"unsupported macro character (" + macroChar +")")

def handleSequence(toks):
return GroupEmitter(toks[0])

def handleDot():
return CharacterRangeEmitter(printables)

def handleAlternative(toks):
return AlternativeEmitter(toks[0])

_parser = None
def parser():
global _parser
if _parser is None:
ParserElement.setDefaultWhitespaceChars("")
lbrack,rbrack,lbrace,rbrace,lparen,rparen = map(Literal,"[]{}()")

reMacro = Combine("\" + oneOf(list("dws")))
escapedChar = ~reMacro + Combine("\" + oneOf(list(printables)))
reLiteralChar ="".join(c for c in printables if c not in r"\[]{}().*?+|") +" \t"

reRange = Combine(lbrack + SkipTo(rbrack,ignore=escapedChar) + rbrack)
reLiteral = ( escapedChar | oneOf(list(reLiteralChar)) )
reDot = Literal(".")
repetition = (
( lbrace + Word(nums).setResultsName("count") + rbrace ) |
( lbrace + Word(nums).setResultsName("minCount")+","+ Word(nums).setResultsName("maxCount") + rbrace ) |
oneOf(list("*+?"))
)

reRange.setParseAction(handleRange)
reLiteral.setParseAction(handleLiteral)
reMacro.setParseAction(handleMacro)
reDot.setParseAction(handleDot)

reTerm = ( reLiteral | reRange | reMacro | reDot )
reExpr = operatorPrecedence( reTerm,
[
(repetition, 1, opAssoc.LEFT, handleRepetition),
(None, 2, opAssoc.LEFT, handleSequence),
(Suppress('|'), 2, opAssoc.LEFT, handleAlternative),
]
)
_parser = reExpr

return _parser

def count(gen):
"""Simple function to count the number of elements returned by a generator."""
i = 0
for s in gen:
i += 1
return i

def invert(regex):
"""Call this routine as a generator to return all the strings that
match the input regular expression.
for s in invert("[A-Z]{3}\d{3}"):
print s
"""
invReGenerator = GroupEmitter(parser().parseString(regex)).makeGenerator()
return invReGenerator()

def main():
tests = r"""
[A-EA]
[A-D]*
[A-D]{3}
X[A-C]{3}Y
X[A-C]{3}\(
X\d
foobar\d\d
foobar{2}
foobar{2,9}
fooba[rz]{2}
(foobar){2}
([01]\d)|(2[0-5])
([01]\d\d)|(2[0-4]\d)|(25[0-5])
[A-C]{1,2}
[A-C]{0,3}
[A-C]\s[A-C]\s[A-C]
[A-C]\s?[A-C][A-C]
[A-C]\s([A-C][A-C])
[A-C]\s([A-C][A-C])?
[A-C]{2}\d{2}
@|TH[12]
@(@|TH[12])?
@(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9]))?
@(@|TH[12]|AL[12]|SP[123]|TB(1[0-9]?|20?|[3-9])|OH(1[0-9]?|2[0-9]?|30?|[4-9]))?
(([ECMP]|HA|AK)[SD]|HS)T
[A-CV]{2}
A[cglmrstu]|B[aehikr]?|C[adeflmorsu]?|D[bsy]|E[rsu]|F[emr]?|G[ade]|H[efgos]?|I[nr]?|Kr?|L[airu]|M[dgnot]|N[abdeiop]?|Os?|P[abdmortu]?|R[abefghnu]|S[bcegimnr]?|T[abcehilm]|Uu[bhopqst]|U|V|W|Xe|Yb?|Z[nr]
(a|b)|(x|y)
(a|b) (x|y)
""".split('
')

for t in tests:
t = t.strip()
if not t: continue
print '-'*50
print t
try:
print count(invert(t))
for s in invert(t):
print s
except ParseFatalException,pfe:
print pfe.msg
print
continue
print

if __name__ =="__main__":
main()

相关讨论

不，如果使用标准正则表达式。

原因是您不能满足常规语言的泵送引理。抽运引理表明，如果存在一个数字n，那么属于语言l的字符串是规则的，这样，在将字符串划分为3个子字符串xyz之后，x>=1&；&；x y<=n，您可以重复y任意多次，并且整个字符串仍然属于l。

抽运引理的一个结果是，不能有形式为a^Nb^Mc^N的正则字符串，也就是说，两个子字符串的长度相同，由另一个字符串分隔。不管怎样，在x y和z中拆分这样的字符串，如果没有获得一个不同数字"a"和"c"的字符串，就不能"泵送"y，从而离开原始语言。例如，就是这样，正则表达式中有括号。