帮助你驾驭Java正则表达式
什么是正则表达式?
正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。Java正则表达式和Perl的是最为相似的。
Java正则表达式的类在 x 包中,包括三个类:Pattern,Matcher 和 PatternSyntaxException。
Pattern对象是正则表达式的已编译版本。他没有任何公共构造器,我们通过传递一个正则表达式参数给公共静态方法 compile 来创建一个pattern对象。
Matcher是用来匹配输入字符串和创建的 pattern 对象的正则引擎对象。这个类没有任何公共构造器,我们用patten对象的matcher方法,使用输入字符串作为参数来获得一个Matcher对象。然后使用matches方法,通过返回的布尔值判断输入字符串是否与正则匹配。
如果正则表达式语法不正确将抛出PatternSyntaxException异常。
让我们在一个简单的例子里看看这些类是怎么用的吧
package ; import her;import ern; public class RegexExamples { public static void main(String[] args) { // using pattern with flags Pattern pattern = Pattern pile("ab", _INSENSITIVE); Matcher matcher = her("ABcabdAb"); // using Matcher find(), group(), start() and end() methods while (()) { tln("Found the text "" + p() + "" starting at " + t() + " index and ending at index " + ()); } // using Pattern split() method pattern = Pattern pile("W"); String[] words = t("one@two#three:four$five"); for (String s : words) { tln("Split using t(): " + s); } // using aceFirst() and replaceAll() methods pattern = Pattern pile("1*2"); matcher = her("11234512678"); tln("Using replaceAll: " + aceAll("_")); tln("Using replaceFirst: " + aceFirst("_")); } }
既然正则表达式总是和字符串有关, Java 1.4对String类进行了扩展,提供了一个matches方法来匹配pattern。在方法内部使用Pattern和Matcher类来处理这些东西,但显然这样减少了代码的行数。
Pattern类同样有matches方法,可以让正则和作为参数输入的字符串匹配,输出布尔值结果。
下述的代码可以将输入字符串和正则表达式进行匹配。
String str = "bbb";tln("Using String matches method: "+hes(""));tln("Using Pattern matches method: "+hes("", str));
所以如果你的.需要仅仅是检查输入字符串是否和pattern匹配,你可以通过调用String的matches方法省下时间。只有当你需要操作输入字符串或者重用pattern的时候,你才需要使用Pattern和Matches类。
注意由正则定义的pattern是从左至右应用的,一旦一个原字符在一次匹配中使用过了,将不会再次使用。
例如,正则“121”只会匹配两次字符串“31212142121″,就像这样“_121____121″。
正则表达式通用匹配符号
Java正则表达式元字符
有两种方法可以在正则表达式中像一般字符一样使用元字符。
在元字符前添加反斜杠()
将元字符置于Q(开始引用)和E(结束引用)间
正则表达式量词
量词指定了字符匹配的发生次数。
量词可以和character classes和capturing group一起使用。
例如,[abc]+表示a,b或c出现一次或者多次。
(abc)+表示capturing group “abc”出现一次或多次。我们即将讨论capturing group。
正则表达式capturing group
Capturing group是用来对付作为一个整体出现的多个字符。你可以通过使用()来建立一个group。输入字符串中和capturing group相匹配的部分将保存在内存里,并且可以通过使用Backreference调用。
你可以使用pCount方法来获得一个正则pattern中capturing groups的数目。例如((a)(bc))包含3个capturing groups; ((a)(bc)), (a) 和 (bc)。
你可以使用在正则表达式中使用Backreference,一个反斜杠()接要调用的group号码。
Capturing groups和Backreferences可能很令人困惑,所以我们通过一个例子来理解。
tln(hes("(wd)1", "a2a2")); //true tln(hes("(wd)1", "a2b2")); //false tln(hes("(AB)(Bd)21", "ABB2B2AB")); //true tln(hes("(AB)(Bd)21", "ABB2B3AB")); //false
在第一个例子里,运行的时候第一个capturing group是(wd),在和输入字符串“a2a2″匹配的时候获取“a2″并保存到内存里。因此1是”a2”的引用,并且返回true。基于相同的原因,第二行代码打印false。
试着自己理解第三行和第四行代码。:)
现在我们来看看Pattern和Matcher类中一些重要的方法。
我们可以创建一个带有标志的Pattern对象。例如_INSENSITIVE可以进行大小写不敏感的匹配。Pattern类同样提供了和String类相似的split(String) 方法
Pattern类toString()方法返回被编译成这个pattern的正则表达式字符串。
Matcher类有start()和end()索引方法,他们可以显示从输入字符串中匹配到的准确位置。
Matcher类同样提供了字符串操作方法replaceAll(String replacement)和replaceFirst(String replacement)。
现在我们在一个简单的java类中看看这些函数是怎么用的。
package ; import her;import ern; public class RegexExamples { public static void main(String[] args) { // using pattern with flags Pattern pattern = Pattern pile("ab", _INSENSITIVE); Matcher matcher = her("ABcabdAb"); // using Matcher find(), group(), start() and end() methods while (()) { tln("Found the text "" + p() + "" starting at " + t() + " index and ending at index " + ()); } // using Pattern split() method pattern = Pattern pile("W"); String[] words = t("one@two#three:four$five"); for (String s : words) { tln("Split using t(): " + s); } // using aceFirst() and replaceAll() methods pattern = Pattern pile("1*2"); matcher = her("11234512678"); tln("Using replaceAll: " + aceAll("_")); tln("Using replaceFirst: " + aceFirst("_")); } }
上述程序的输出:
Found the text "AB" starting at 0 index and ending at index 2Found the text "ab" starting at 3 index and ending at index 5Found the text "Ab" starting at 6 index and ending at index 8Split using t(): oneSplit using t(): twoSplit using t(): threeSplit using t(): fourSplit using t(): fiveUsing replaceAll: _345_678Using replaceFirst: _34512678
-
Java发展史之Java的由来
Java发展史之Java的由来Java:由SunMicrosystems公司于1995年5月推出的Java程序设计语言和Java平台的总称。Java语言是一种可以撰写跨平台应用软件的面向对象的程序设计语言,由当时任职太阳微系统的詹姆斯·高斯林(JamesGosling)等人于1990年代初开发,它最初被命名为...
-
Java创建线程的三种方法
导语:编写多线程程序是为了实现多任务的并发执行,从而能够更好地与用户交互。下面是Java创建线程的三种方法,一起来学习下吧:Runnable和Callable的区别(1)Callable规定的方法是call(),Runnable规定的方法是run().(2)Callable的任务执行后可返回值,而Runnable的任务...
-
java中String和StringBuffer的区别
java中String和StringBuffer的区别String这个类是Java中使用得最频繁的类之一,以下就是小编精心推荐java中String和StringBuffer的区别,希望对大家有帮助!看到这个讲解的不错,所以转一下在java中有3个类来负责字符的操作。acter是进行单个字符操作的,ng对一串字符...
-
Java中运算符的使用
导语:计算机的最基本用途之一就是执行数学运算,作为一门计算机语言,Java也提供了一套丰富的运算符来操纵变量。下面是java中运算符的使用,一起来学习下吧:算术运算符单目:+(取正)-(取负)++(自增1)--(自减1)双目:+-*/%(取余)三目:a>b?true:false说明:当a大于b的时候,为tru...