python怎样运用正则表达式【Python教程】,python,正则表达式

字符串是编程时涉及到的最多的一种数据结构，对字符串举行操纵的需求险些无处不在。比方推断一个字符串是不是是正当的Email地点，虽然能够编程提取@前后的子串，再离别推断是不是是单词和域名，但如许做不只贫苦，而且代码难以复用。正则表达式是一种用来婚配字符串的强有力的兵器。它的设想头脑是用一种形貌性的言语来给字符串定义一个划定规矩，通常相符划定规矩的字符串，我们就以为它“婚配”了，不然，该字符串就是不正当的。

所以我们推断一个字符串是不是是正当的Email的要领是：

建立一个婚配Email的正则表达式；

用该正则表达式去婚配用户的输入来推断是不是正当。

因为正则表达式也是用字符串示意的，所以，我们要起首相识怎样用字符来形貌字符。

在正则表达式中，假如直接给出字符，就是准确婚配。用\d能够婚配一个数字，\w能够婚配一个字母或数字，所以：

'00\d'能够婚配'007'，但没法婚配'00A'；

'\d\d\d'能够婚配'010'；

'\w\w\d'能够婚配'py3'；

.能够婚配恣意字符，所以：

'py.'能够婚配'pyc'、'pyo'、'py!'等等。

要婚配变长的字符，在正则表达式中，用*示意恣意个字符（包括0个），用+示意最少一个字符，用?示意0个或1个字符，用{n}示意n个字符，用{n,m}示意n-m个字符：

来看一个庞杂的例子：\d{3}\s+\d{3,8}。

我们来从左到右解读一下：

\d{3}示意婚配3个数字，比方'010'；

\s能够婚配一个空格（也包括Tab等空白符），所以\s+示意最少有一个空格，比方婚配' '，' '等；

\d{3,8}示意3-8个数字，比方'1234567'。

综合起来，上面的正则表达式能够婚配以恣意个空格离隔的带区号的电话号码。

假如要婚配'010-12345'如许的号码呢？因为'-'是迥殊字符，在正则表达式中，要用'\'转义，所以，上面的正则是\d{3}\-\d{3,8}。

然则，依然没法婚配'010 - 12345'，因为带有空格。所以我们须要更庞杂的婚配体式格局。

相干引荐：《Python视频教程》

进阶

要做更准确地婚配，能够用[]示意局限，比方：

[0-9a-zA-Z\_]能够婚配一个数字、字母或许下划线；

[0-9a-zA-Z\_]+能够婚配最少由一个数字、字母或许下划线构成的字符串，比方'a100'，'0_Z'，'Py3000'等等；

[a-zA-Z\_][0-9a-zA-Z\_]*能够婚配由字母或下划线开首，后接恣意个由一个数字、字母或许下划线构成的字符串，也就是Python正当的变量；

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更准确地限定了变量的长度是1-20个字符（前面1个字符+背面最多19个字符）。

A|B能够婚配A或B，所以(P|p)ython能够婚配'Python'或许'python'。

^示意行的开首，^\d示意必需以数字开首。

$示意行的完毕，\d$示意必需以数字完毕。

你能够注重到了，py也能够婚配'python'，然则加上^py$就变成了整行婚配，就只能婚配'py'了。

re模块

有了预备学问，我们就能够在Python中运用正则表达式了。Python供应re模块，包括一切正则表达式的功用。因为Python的字符串自身也用\转义，所以要迥殊注重：

s = 'ABC\\-001' # Python的字符串# 对应的正则表达式字符串变成：# 'ABC\-001'

因而我们强烈建议运用Python的r前缀，就不必斟酌转义的问题了：

s = r'ABC\-001' # Python的字符串# 对应的正则表达式字符串稳定：# 'ABC\-001'

先看看怎样推断正则表达式是不是婚配：

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'
>>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

match()要领推断是不是婚配，假如婚配胜利，返回一个Match对象，不然返回None。罕见的推断要领就是：

test = '用户输入的字符串'if re.match(r'正则表达式', test):

print('ok')else:
print('failed')

切分字符串

用正则表达式切分字符串比用牢固的字符更天真，请看一般的切分代码：

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

嗯，没法辨认一连的空格，用正则表达式尝尝：

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

不管多少个空格都能够一般支解。到场,尝尝：

>>> re.split(r'[\s\,]+', 'a,b, c  d')
['a', 'b', 'c', 'd']

再到场;尝尝：

>>> re.split(r'[\s\,\;]+', 'a,b;; c  d')
['a', 'b', 'c', 'd']

假如用户输入了一组标签，下次记得用正则表达式来把不范例的输入转化成准确的数组。

分组

除了简朴地推断是不是婚配以外，正则表达式另有提取子串的壮大功用。用()示意的就是要提取的分组（Group）。比方：

^(\d{3})-(\d{3,8})$离别定义了两个组，能够直接从婚配的字符串中提掏出区号和当地号码：

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'
>>>> m.group(0)'010-12345'
>>> m.group(1)'010'
>>> m.group(2)'12345'

假如正则表达式中定义了组，就能够在Match对象上用group()要领提掏出子串来。

注重到group(0)永远是原始字符串，group(1)、group(2)……示意第1、2、……个子串。

提取子串异常有效。来看一个更横暴的例子：

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)>>> m.groups()
('19', '05', '30')

这个正则表达式能够直接辨认正当的时刻。然则有些时刻，用正则表达式也没法做到完整考证，比方辨认日期：

'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'

关于'2-30'，'4-31'如许的不法日期，用正则照样辨认不了，或许说写出来异常难题，这时候就须要顺序合营辨认了。

贪欲婚配

末了须要迥殊指出的是，正则婚配默许是贪欲婚配，也就是婚配尽量多的字符。举比方下，婚配出数字背面的0：

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

因为\d+采纳贪欲婚配，直接把背面的0悉数婚配了，效果0*只能婚配空字符串了。

必需让\d+采纳非贪欲婚配（也就是尽量少婚配），才能把背面的0婚配出来，加个?就能够让\d+采纳非贪欲婚配：

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

编译

当我们在Python中运用正则表达式时，re模块内部会干两件事变：

编译正则表达式，假如正则表达式的字符串自身不正当，会报错；

用编译后的正则表达式去婚配字符串。

假如一个正则表达式要重复运用几千次，出于效力的斟酌，我们能够预编译该正则表达式，接下来重复运用时就不须要编译这个步骤了，直接婚配：

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 运用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

编译后生成Regular Expression对象，因为该对象本身包括了正则表达式，所以挪用对应的要领时不必给出正则字符串。

参数