系列文章原载于自己的博客,TOPI.CO (http://topi.co) ,某天不小心就 push 错啦,懒得从头再来,上传到 Ruby-China 来,一是方便自己回顾,另外也方便跟我一样的初学者
之前简单介绍过 Ruby 编程之正则表达式,过于简单,所以在网上查询了些资料,继续补充。
先推荐一个在线的 Ruby 正则表达式编辑器:Rubular,现在已经支持 Ruby 1.9 啦。
如前文所说,Ruby 的正则表达式以/pattern/
为模式,表达式返回一个 RegExp 的对象。可以通过内省方法来查看:
puts /RoR|Rails/.class #-> RegExp
/a/匹配字符a。
/\?/匹配特殊字符?。特殊字符包括^, $, ? , ., /, \, [, ], {, }, (, ), +, *.
.匹配任意字符,例如/a./匹配ab和ac。
/[ab]c/匹配ac和bc,[]之间代表范围。例如:/[a-z]/ , /[a-zA-Z0-9]/。
/[^a-zA-Z0-9]/匹配不在该范围内的字符串。
/[\d]/代表任意数字
/[\w]/代表任意字母,数字或者_
/[\s]/代表空白字符,包括空格,TAB和换行。
/[\D]/,/[\W]/,/[\S]/均为上述的否定情况。
?代表0或1个字符。/Mrs?\.?/匹配"Mr","Mrs","Mr.","Mrs."。
*代表0或多个字符。/Hello*/匹配"Hello","HelloJack"。
+代表1或多个字符。/a+c/匹配:"abc","abbdrec"等等。
/d{3}/匹配3个数字。
/d{1,10}/匹配1-10个数字。
/d{3,}/匹配3个数字以上。
/([A-Z]\d){5}/匹配首位是大写字母,后面4个是数字的字符串。
String 和 RegExp 均支持=~
和match
两个查询匹配方法:
puts "I can say my name" =~ /name/ #-> 13
a = /name/.match("I can say my name, my name I can say") #-> a is MatchData
puts a[0] #-> name
可以看出,如果能够匹配,=~返回匹配的字符串位置,而 match 返回一个 MatchData 对象。如果不匹配,则返回 nil。MatchData 可以取出其中符合各个子匹配(或子模式)
的内容,看下面的例子:
b1=/[A-Za-z]+,[A-Za-z]+,Mrs?\./.match("Jack,Wang,Mrs., nice person")
puts b1[0] #-> Jack,Wang,Mrs
b2=/(([A-Za-z]+),([A-Za-z]+)),Mrs?\./.match("Jack,Wang,Mrs., nice person:)
puts b2[0] #-> Jack,Wang,Mrs
puts b2[1] #-> Jack,Wang
puts b2[2] #-> Jack
puts b2[3] #-> Wang
m[0] 返回匹配匹配主表达式
的字符串,下面的方法是等同的:m[n]==m.captures[n]
Ruby 也自动的为我们填写一些全局变量,它们以数字做名,$1, $2, 等等,$1包含的是正则表达式中从左侧开始的第一对小括号内的子模式所匹配的字符串,以此类推。我们看出匹配时,是从外到内,从左到右的顺序。
量词*(表示零个或多个)
和+(表示一个或多个)
是贪婪的,它们会匹配尽可能多的字符,我们可以在*和+后面加一个?
,使它成为非贪婪量词
下面代码是:1 个或多个字符后接一个感叹号。
teststr="abcd!efg!"
match=/.+!/.match(teststr)
puts match[0] #-> abcd!efg!
limitmatch=/.+?!/.match(teststr)
puts limitmatch[0] #-> abcd!
锚是指必须满座一定的条件,才能继续匹配:
^ 行首
$ 行尾
\A 字符串的开始
\z 字符串的结尾
\Z 字符串的结尾(不包括最后的换行符)
\b 单词边界
c=/\b\w+\b/.match("!!Stephen**")
puts c[0] #-> Stephen
前视断言表示想要知道下一个指定的是什么,但并不匹配
(?=)
假设我们想要匹配一个数的序列,该序列以一个圆点结束,但并不想把圆点作为模式匹配的一部分
teststr="123 456 789. 012"
m=/\d+(?=\.)/.match(teststr)
puts m[0] #-> 789
(?!)
上例,如果/\d+(?=\.)/
改为/\d+(?!\.)/
,则puts m[0]
输出显示为 123。
修饰语位于正则表达式最结束正则表达式的正斜杠的后面
i
使正则表达式对大小写不敏感例如,/abc/i
可以匹配 Abc,abc,ABC 等。
m
使得正则表达式可以和任何字符匹配,包括换行符,通常情况下圆点通配符不匹配换行符。teststr="a.c"
re=/#{Regexp.escape(teststr)}/
puts re.match("a.c")[0] #-> a.c
test=re.match("abc")
puts test[0] #-> Nil
puts /abc/.inspect #-> /abc/
用于 if 和 while 等
用于 gsub、grep 等
用于 find_all、scan 等
例如,puts "test 1 2 and test 3 4".scan(/\d/)
会输出["1","2","3","4"]。