Ruby 匹配中文的正则表达片段

ruohanc · 2012年09月21日 · 最后由 victorialice 回复于 2016年03月19日 · 18611 次阅读

今天在 twitter 上瞅见的：

"这段正则 /[一 - 龠]+/ 能匹配简体和繁体，至少 Objective-C、JavaScript 和 Ruby 都验证过了，就是不知道字数范围有多少……" -- ‏@chrisyipw 推文

ruby-1.9.3-p194

22 个赞

无引用文章

关于正则验证写了一个小工具 Gstar,帮助你搜索在 github 上 star 过的项目分享下 ruby 匹配 @ 艾特用户名的方法

hooopo #0 2012年09月21日

("一".."龥").to_a.size
=> 20902

1 个赞

bhuztez #1 2012年09月21日

这个说法是有问题的吧。看 Unicode 文档，CJK 是分成好几段的

http://www.unicode.org/versions/Unicode6.0.0/ch12.pdf

0x3400 ~ 0x4DBF
0x4E00 ~ 0x9FFF
0xF900 ~ 0xFAFF
0x20000 ~ 0x2A6DF
0x2A700 ~ 0x2B73F
0x2B740 ~ 0x2B81F
0x2F800 ~ 0x2FA1F

一 - 龠也就 4E00 ~ 9FA0 龥也就 9FA5

2 个赞

hooopo #2 2012年09月21日

#2 楼 @bhuztez 是的

hbin #3 2012年09月21日

原来匹配简体和繁体的正则是这样的

luikore #4 2012年09月23日

匹配汉字用 /\p{Han}+/u 就可以了

35 个赞

ruohanc #5 2012年09月23日

#5 楼 @luikore 这个神奇！哪里看到的.. :thumbsup:

luikore #6 2012年09月23日

#6 楼 @ruohanc PHP, .NET, Ruby 都能在正则用 Unicode 字符组，命令行输入 ri Regexp 在 Character Properties 段就能看到，如果没看到可以先 rvm docs generate 生成一下 Ruby 文档

还有常用的：

/\p{Word}+/u 不限于 a-z0-9 的成词字符 (就是非标点制表符空格等杂类的字符)
/\p{Hiragana,Katakana}+/u 匹配平假名＋片假名

9 个赞

chrisyipw #7 2013年03月02日

汗，那条推并不是完整的，完整的在这：http://chrisyip.im/post/regular-expression-for-cjk/

Ruby 和部分语言可以直接 #{Han} 等方式匹配特定的语言，但是对于某些语言，如 JavaScript，是不可能如此简便的，我发那条推和写那篇文的目的是针对我会用到的语言。

1 个赞

praguepp #8 2013年04月14日

#7 楼 @luikore 请教下，我的输入字符编码是 utf8，有"12321313"和"下载"这两种字符，在我的系统上进行匹配的时候使用/\p{Han}+/u，匹配不了，使用/[\u4e00-\u9fa5]/可以匹配，但把两种字符都匹配了，这种是否区分不了。。 if hash["serv_crc"] =~ /[\u4e00-\u9fa5]/ line[3] = crc32(hash["serv_crc"]) ATT::KeyLog::debug "serv_crc:#{hash["serv_crc"]} convert to crc 3:#{line[3]}" end

luikore #9 2013年04月14日

#9 楼 @praguepp 你的 ruby 版本是 1.8 吧... 要么升级 1.9/2.0, 要么用这个：

/(
    \xe4[\xb8-\xbf][\x80-\xbf]
    |[\xe5-\xe8][\x80-\xbf][\x80-\xbf]
    |\xe9[\x80-\xbd][\x80-\xbf]
    |\xe9\xbe[\x80-\xa5]
)+/x

多年前写的可用在 1.8 的针对各种编码的正则：https://gist.github.com/luikore/149493

praguepp #10 2013年04月14日

#10 楼 @luikore 你真厉害，得多向你学习。是 1.87。试了下，提示无效的正则表达式 test_create_mem_u_log(TestAreaCenterClientOperation): ATT::Exceptions::LoadError: loading C:/operator/keywords/helper/area_center/area_center_client_operation.rb error: C:/operator/keywords/helper/area_center/area_center_client_operation.rb:231: invalid regular expression: /(\xe4[xb8-\xbf][\x80-\xbf]|[\xe5-xe8][\x80-\xbf][\x80-\xbf]|\xe9[\x80-\xbd][\x80-\xbf]|\xe9\xbe[\x80-\xa5])+/ C:/operator/keywords/helper/area_center/area_center_client_operation.rb:237: invalid regular expression: /(\xe4[xb8-\xbf][\x80-\xbf]|[\xe5-xe8][\x80-\xbf][\x80-\xbf]|\xe9[\x80-\xbd][\x80-\xbf]|\xe9\xb e[\x80-\xa5])+/ C:/ATT_rake_server_ruby187/ruby/lib/ruby/gems/1.8/gems/att-1.1.0/lib/att/load_keyword.rb:76:in `require_file'

luikore #11 2013年04月14日

#11 楼 @praguepp 你把 [\xe5-\xe8] 写成 [\xe5-xe8] 了... 少了个反斜线...

1 个赞

praguepp #12 2013年04月14日

#12 楼 @luikore 是我不够细心，下次会注意。现在可以了，谢谢

xiaoronglv #13 2014年10月11日

#5 楼 @luikore

/\p{Han}+/u 中的 /u 是什么意思呢？看了半天文档还是没懂。

luikore #14 2014年10月12日

#14 楼 @xiaoronglv 让这个正则的编码是 utf-8 的意思

/a/.encoding   # US-ASCII
/a/u.encoding # UTF-8

1 个赞

victorialice #15 2016年03月19日

好神奇

wikimo 在分享下 ruby 匹配 @ 艾特用户名的方法提及了此话题。 09月10日 23:01

kayakjiang 在写了一个小工具 Gstar,帮助你搜索在 github 上 star 过的项目提及了此话题。 04月03日 10:57

需要登录后方可回复, 如果你还没有账号请注册新账号

22 个赞

共收到 16 条回复

收到新回复，点击立即加载