站长在线Python精讲:Python中正则表达式的语法详解
导读:欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《Python中正则表达式的语法详解》。本知识点主要内容有9点:行定位符、元字符、限定符、字符集、排除字符、选择字符、转义字符、分组、在Python中使用正则表达式语法。
欢迎你来到站长在线的站长学堂学习python知识,本文学习的是《Python中正则表达式的语法详解》。本知识点主要内容有9点:行定位符、元字符、限定符、字符集、排除字符、选择字符、转义字符、分组、在Python中使用正则表达式语法。
关于Python中的正则表达式,准备分两个知识点讲完,今天来讲解正则表达式的语法。
正则表达式的概念:正则表达式(regular expression,简称regex或者RE),也称为归则表达式。通常用来检索、替换符合某些规则的文本。正则表达式就是记录文本规则的代码。
1、行定位符
行定位符就是用来描述字符串的边界。“^”表示行的开始;“$”表示行的结尾。
例如:
One is All
All is One
^One
该表达式表示要匹配字符串One的开始位置是行头,如One is All就可以匹配,而All is One则不匹配。但如果使用:
One$
则All is One可以匹配,而One is All不能匹配。如果要匹配的字符串可以出现在字符串的任意部分,那么可以直接写成:
One
这样,两个字符串就都可以匹配了。
2、元字符
元字符就是在正则表达式中具有特殊意义的专用字符。
刚才我们所说的“^”和“$”就是元字符,在Python有下面常用元字符:.、\w、\W、\s、\S、\d、\D、\b、^、$。
各种元字符及其说明如下:
.:匹配除换行符以外的任意字符
\W:匹配特殊字符,即非字母、非数字、非汉字
\s:匹配任意的空白符
\S:匹配非空白
\d:匹配数字
\D:匹配非数字,即不是数字
\b:匹配单词的开始或结束
^:匹配字符串的开始
$:匹配字符串的结束
我们来看一个例子:
\byi\w*\b
匹配以字母yi开头的单词,先匹配单词开始处(\b),然后匹配字母yi,接着匹配任意数量的字母或数字(\w*),最后匹配单词结束处(\b)。该表达式可以匹配如“yibenshu”“saneryi”“haoyige”“yi12345”等。
3、限定符
在上面的元字符的例子中,使用“\w*”匹配任意数量的字母或数字。如果想匹配特定数量的数字,该如何表示呢?正则表达式为我们提供了限定符(指定数量的字符)来实现该功能。
例如,匹配6位qq号可用如下表达式:
^\d{6}$
常用的限定符如下所示:*、+、?、{n} 、{n,}、{n,m}、[] 。
各种限定符及说明及举例如下:
* :匹配前面的字符零次或更多次。例如“zo*”能匹配“z” “zo”以及“zoo”,“*”等效于“{0,}”
+ :匹配前面的字符一次或更多次。例如“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”,“+”等效于"{1,}”
? :匹配前面的字符零次或一次。例如“do(es)?”可以匹配 “do”或 “does”中的“do”,“?”等效 于 “{0,1}”
{n} :匹配前面的字符n次。例如“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food” 中的两个 o
{n,} :匹配前面的字符n次或更多次。例如“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o, 等效于“o+”,“o{0,}”则等效于“o*”
{n,m} :匹配前面的字符n到m次。其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如“o{1,3}”将匹配“fooooood" 中的前三个“o”,“o{0,l}”等效于“0?”。注意在逗号和两个数之间不能有空格
4、字符集
正则表达式查找数字和字母是很简单的,因为已经有了对应这些字符集合的元字符(如\d,\w),但是如果要匹配没有预定义元字符的字符集合(比如元音字母a, e, i, o, u),应该怎么办?很简单,只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母。
[xyz]表示匹配里面的任意一个字符。
[a-z]字符范围,匹配指定范围内的任意字符。例如“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符
[.?!]匹配标点符号“.”、“?”或“!”。也可以轻松地指定一个字符范围,像[0-9]代表的含义与\d就是完全一致的:代表一位数字;同理,[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)。
要想匹配给定字符串中任意一个汉字,可以使用[\u4e00-\u9fa5];如果要匹配连续多个汉字,可以使用[\u4e00-\u9fa5]+。
5、排除字符
上方的字符集是匹配符合指定字符集的字符串。这里的排除字符,刚刚相反。排除字符就是匹配不符合指定字符集的字符串。在正则表达式中用“^”表示。我们在最开始的行定位符中也说到了“^”,放在开头,在这里放在方括号[]里面,表示排除的意思。如:
[^a-zA-Z]
表示用于一个匹配非字母的字符。
6、选择字符
Python中的选择字符,包含着条件选择的逻辑,在这里使用“|”来表示。该字符可以理解为“或”。
如中国人的身份证号码长度为15位或者18位。如果为15位,则全为数字;如果为18位,前17位为数字,最后一位是校验位,可能为数字或字符X。
匹配身份证的表达式可以写出如下方式:
(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$
该表达式的意思是可以匹配15位数字,或者18位数字,或者17位数字和最后一位。最后一位可以是数字或者是X或者是x。
7、转移字符
正则表达式中的转义字符(\)和Python中的大同小异,都是将特殊字符(如“.”“?”“\”等)变为普通的字符。
举一个IP地址的实例,用正则表达式匹配如127.0.0.1这样格式的IP地址。如果直接使用点字符,格式为:
[1-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}
这显然不对,因为“.”可以匹配一个任意字符。这时,不仅是127.0.0.1这样的IP,连127101011这样的字串也会被匹配出来。所以在使用“.”时,需要使用转义字符(\)。修改后,上面的正则表达式格式为:
[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}
站长在线提醒你:括号在正则表达式中也算是一个元字符。
8、分组
通过上面选择字符中的例子,可以看见小括号的作用有了一定的了解。
小括号字符的第一个作用就是可以改变限定符的作用范围,如“|”“*”“^”等。来看下面的一个表达式。
(mon|ma)th
这个表达式的意思是匹配单词month或math,如果不使用小括号,那么就变成了匹配单词mon和math了。
小括号的第二个作用是分组,也就是子表达式。例如(\.[0-9]{1,3}){3},就是对分组(\.[0-9]{1,3})进行重复操作。
9、在Python中使用正则表达式语法
在Python中使用正则表达式时,是将其作为模式字符串使用的。例如,将匹配不是字母的一个字符的正则表达式表示为模式字符串,可以使用下面的代码:
'[^a-zA-Z]'
而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串,则不能直接在其两侧添加引号定界符,例如,下面的代码是不正确的。
'\bm\w*\b'
而是需要将其中的“\”进行转义,转换后的代码为:
'\\bm\\w*\\b'
由于模式字符串中可能包括大量的特殊字符和反斜杠,所以需要写为原生字符串,即在模式字符串前加r或R。例如,上面的模式字符串采用原生字符串表示就是:
r'\bm\w*\b'
在编写模式字符串时,并不是所有的反斜杠都需要进行转换。例如,前面编写的正则表达式“^\d{6}$”中的反斜杠就不需要转义,因为其中的\d并没有特殊意义。不过,为了编写方便,本教程所写正则表达式都采用原生字符串表示。
到此为止,本文学习的《Python中正则表达式的语法详解》中的主要内容有9点:行定位符、元字符、限定符、字符集、排除字符、选择字符、转义字符、分组、在Python中使用正则表达式语法。就全部讲解完毕了。有问题,可以给我留言哦!
下一个知识点,我们讲解《在Python中使用re模块实现正则表达式操作详解》。欢迎你对站长在线进行关注,评论,点赞,分享、转发!
本文地址:https://www.olzz.com/pythonzhengzebiaodashideyufa.html
阿里云虚拟主机1G空间,120元一年
香港、美国虚拟主机100元一年,1000元永久
腾讯云双十一0.4折起,2核8G5M三年仅700元,2核4G8M三年仅198元
猜你喜欢