正则表达式
正则表达式(英语:Regular Expression,在代码中常简写为regex)。
正则表达式是一个字符串,使用单个字符串,用来定义匹配规则
正则表达式的匹配规则
参照帮助文档,在Pattern类中有正则表达式的的规则定义,正则表达式中明确区分大小写字母。我们来学习语法规则。
正则表达式的语法规则:
字符:x
含义:代表的是字符x
例如:匹配规则为 “a”,那么需要匹配的字符串内容就是 ”a”
字符:\\
含义:代表的是反斜线字符‘\’
例如:匹配规则为“\\” ,那么需要匹配的字符串内容就是 ”\”
字符:\t
含义:制表符
例如:匹配规则为“\t” ,那么对应的效果就是产生一个制表符的空间
字符:\n
含义:换行符
例如:匹配规则为“\n”,那么对应的效果就是换行,光标在原有位置的下一行
字符:\r
含义:回车符
例如:匹配规则为“\r” ,那么对应的效果就是回车后的效果,光标来到下一行行首
字符类:[abc]
含义:代表的是字符a、b 或 c
例如:匹配规则为“[abc]” ,那么需要匹配的内容就是字符a,或者字符b,或字符c的一个
字符类:[^abc]
含义:代表的是除了 a、b 或 c以外的任何字符
例如:匹配规则为“[^abc]”,那么需要匹配的内容就是不是字符a,或者不是字符b,或不是字符c的任意一个字符
字符类:[a-zA-Z]
含义:代表的是a 到 z 或 A 到 Z,两头的字母包括在内
例如:匹配规则为“[a-zA-Z]”,那么需要匹配的是一个大写或者小写字母
字符类:[0-9]
含义:代表的是 0到9数字,两头的数字包括在内
例如:匹配规则为“[0-9]”,那么需要匹配的是一个数字
字符类:[a-zA-Z_0-9]
含义:代表的字母或者数字或者下划线(即单词字符)
例如:匹配规则为” [a-zA-Z_0-9] “,那么需要匹配的是一个字母或者是一个数字或一个下滑线
预定义字符类:.
含义:代表的是任何字符
例如:匹配规则为” . “,那么需要匹配的是一个任意字符。如果,就想使用 . 的话,使用匹配规则“\\.”来实现
预定义字符类:\d
含义:代表的是 0到9数字,两头的数字包括在内,相当于[0-9]
例如:匹配规则为“\d “,那么需要匹配的是一个数字
预定义字符类:\w
含义:代表的字母或者数字或者下划线(即单词字符),相当于[a-zA-Z_0-9]
例如:匹配规则为“\w “,,那么需要匹配的是一个字母或者是一个数字或一个下滑线
边界匹配器:^
含义:代表的是行的开头
例如:匹配规则为^[abc][0-9]$ ,那么需要匹配的内容从[abc]这个位置开始, 相当于左双引号
边界匹配器:$
含义:代表的是行的结尾
例如:匹配规则为^[abc][0-9]$ ,那么需要匹配的内容以[0-9]这个结束, 相当于右双引号
边界匹配器:\b
含义:代表的是单词边界
例如:匹配规则为“\b[abc]\b” ,那么代表的是字母a或b或c的左右两边需要的是非单词字符([a-zA-Z_0-9])
数量词:X?
含义:代表的是X出现一次或一次也没有
例如:匹配规则为“a?”,那么需要匹配的内容是一个字符a,或者一个a都没有
数量词:X*
含义:代表的是X出现零次或多次
例如:匹配规则为“a*” ,那么需要匹配的内容是多个字符a,或者一个a都没有
数量词:X+
含义:代表的是X出现一次或多次
例如:匹配规则为“a+”,那么需要匹配的内容是多个字符a,或者一个a
数量词:X{n}
含义:代表的是X出现恰好 n 次
例如:匹配规则为“a{5}”,那么需要匹配的内容是5个字符a
数量词:X{n,}
含义:代表的是X出现至少 n 次
例如:匹配规则为“a{5, }”,那么需要匹配的内容是最少有5个字符a
数量词:X{n,m}
含义:代表的是X出现至少 n 次,但是不超过 m 次
例如:匹配规则为“a{5,8}”,那么需要匹配的内容是有5个字符a 到 8个字符a之间
小练习
1.对输入的qq号进行匹配(qq匹配规则:长度为5-10位,纯数字组成,且不能以0开头。)
1 String regex ="[1-9][0-9]{4,9}"; 第一位从1-9,第2位从0-9,长度是4-9 2 String str ="330093922"; 3 boolean b =str.matches(regex); 4 System.out.println(b);
2.对输入的电话号码进行匹配(匹配要求:匹配成功的电话号码位数为11位的纯数字,
且以1开头,第二位必须是:3、7、8中的一位,
即只匹配13*********、17*********、18*********的电话号码)。
1 String regex ="1[3,7,8][0-9]{9}"; 2 String str ="13964467450"; 3 boolean b =str.matches(regex); 4 System.out.println(b);*/
3.对字符串“张三@@@李四@@王五@茅台”进行切割,去掉@符号。
1 String str ="张三@@@李四@@王五@茅台"; 2 String regex ="@"; 3 String[] attr =str.split(regex); 4 for(String a:attr){ 增强for 5 System.out.println(a); 6 }
4.【以叠词切割】:如字符串”abccsasahhhz”按“叠词”
来切割就变成了“ab”,“sasa”,“z”。因为“cc”、“hhh”都是叠词,
需要切割掉。现在请将字符串“张三@@@李四¥¥王五ssssssss江流儿”按照叠词切割
1 String str ="abccsasahhhz"; 2 String regex ="(.)\\1+"; 3 String[] attr = str.split(regex); 4 for(String a:attr){ 5 System.out.println(a); 6 }
1 String str ="张三@@@李四¥¥王五ssssssss江流儿"; 2 String regex ="(.)\\1+"; 3 String[] attr =str.split(regex); 4 for(String a:attr){ 5 System.out.println(a); 6 }
提示:即使用括号:()来表示组,那么组是干嘛的?我们就可以 对组中的数据进行引用:那么regex = “(.)\\1″就表示:
某一字符出现了两次(注意首先我们用(.)来表示任意字符,而\\1是对组(.)中的字符进行复用,合起来就是:两个相同的字符),
现在我们不只是需要出现两次的字符,所以使用+号来表示出现多次,最终叠词就表示为:regex = “(.)\\1+”。
5.将字符串“张三@@@李四YYY王五*****王尼玛”中的叠词替换为:“、”。
1 String str ="张三@@@李四YYY王五*****王尼玛"; 2 String regex ="(.)\\1+"; 3 String attr =str.replaceAll(regex, "、"); 4 System.out.println(attr);
字符串类中正则表达式常用的方法
String str ="159-644-67-450"; String regex ="-"; String[] attr = str.split(regex); //增强for //for(定义要遍历数组或者集合的数据类型 变量名字:数组或者集合名字){} for(String a:attr){ System.out.print(a); }
1 String str ="java ai wo,12 ai java"; 2 String regex ="[0-9]"; 3 String s =str.replaceAll(regex, "*"); 4 System.out.println(s);
验证邮箱
1 String regex ="[\\w]+@[a-zA-z0-9]+\\.[a-zA-Z]+"; 2 String str ="330093922@qq.com"; 3 boolean b = str.matches(regex); 4 System.out.println(b);*/ 5 6