Ruby 请教：ruby 如何截取 140 个字，中英文逗号啥的都有

benyhu · 2012年05月31日 · 最后由 larryzhao 回复于 2012年06月07日 · 6661 次阅读

发到新浪微博用的

3 个赞

Ruby 中有 strtotime 这种时间转换函数么？

有按长度裁剪字符串的函数吗？

benyhu #0 2012年05月31日

没有回答，是问题太简单了吗

heliang7 #1 2012年05月31日

truncate

benyhu #2 2012年05月31日

#2 楼 @heliang7 140 个字，不是 140 个字符

heliang7 #3 2012年05月31日

做了下实验，结果有点怪。


1.9.2p320 :001 > a = "\u6c34\u6d52\u4f20"
 => "水浒传" 
1.9.2p320 :002 > a.truncate(1)
 => "水..." 
1.9.2p320 :003 > a = "\u6c34some??\u6d52\u4f20"
 => "水some??浒传" 
1.9.2p320 :004 > a.truncate(3)
 => "..." 
1.9.2p320 :005 > a.truncate(4)
 => "水..." 
1.9.2p320 :006 > a.truncate(5)
 => "水s..." 
1.9.2p320 :007 >

benyhu #4 2012年05月31日

在新浪微博客里面： "m" => 1 个字 "mm" => 1 个字 "好" => 1 个字 "好吗" => 2 个字

貌似一个英文字符算半个字

benyhu #5 2012年05月31日

如果按字节来算，一个中文字是三个字节，一个英文字是一个字节，不知到新浪是如何算这 140 个字的

ywjno #6 2012年05月31日

# encoding: utf-8

str = "水浒传abcdef水浒传"

puts str.scan(/./)[0, 3] # =>水浒传
puts str.scan(/./)[0, 4] # =>水浒传a
puts str.scan(/./)[0, 10] # =>水浒传abcdef水

ywjno #7 2012年05月31日

不过我感到奇怪的是，在我写的一个发推的 web 程序里面

def twitter
  twitter =  params[:twitter].to_s #从form里面的到输入的文字
  twitter = twitter[0, 137] + '...' if twitter.size > 140

  Twitter.update(twitter, :in_reply_to_status_id=>params[:since_id])

  redirect_to :action => 'timeline'
end

这样是能直接截断发 140 个文字来着，也是中英文数字标点符号混合

Rei #8 2012年05月31日

ruby 1.9 直接可以 ruby 1.8 用 activesupport 提供的 mb_chars，好像 truncate 已经内置使用了

匿名 #9 2012年05月31日

#6 楼 @benyhu 新浪的可以这样做..

#coding=utf-8
#n为要截取的长度
n = 4
puts "水浒传sudhgsdug".encode("gbk").force_encoding("binary")[0...n * 2].force_encoding("gbk").encode("utf-8")

dotnil #10 2012年05月31日

#9 楼 @Rei 新浪的长度计算比较淫荡，英文字符和半角符号都算半个字。按这个规则，如果最大长度为 5，直接 'hello world'[0,5] 其实有点浪费，'hello world'[0,10] 也是能放得下的。

Rei #11 2012年05月31日

#11 楼 @dotnil 又是这种奇葩的设定……是我就无视了，浪费就浪费了

PS: 裁字问题的一个汇总文章 http://rubylution.herokuapp.com/topics/10

1 个赞

x290431695 #12 2012年06月02日

将多字节字符替换为两个单字节字符，比如 "水 abc" => "aaabc", 然后计算新字符串长度 ''aaabc".length => 5

larryzhao #13 2012年06月07日

我觉得楼主可以查看一下twitter-text-rb这个项目https://github.com/twitter/twitter-text-rb

之前用到过一下，里面 twitter 计算混合字符长度是用ActiveSupport::Multibyte::Chars来做的，

项目之余简单做了一下实验，不知道如下是不是可以帮助到楼主 (ActiveSupport::Multibyte::Chars这个类的 truncate 自动添加了...):

jruby-1.6.7 :019 > text1 = "\u6c34some??\u6d52\u4f20"
 => "水some??浒传" 
jruby-1.6.7 :020 > text2 = ActiveSupport::Multibyte::Chars.new(text1).normalize(:c)
 => #<ActiveSupport::Multibyte::Chars:0x458176ff @wrapped_string="水some??浒传"> 
jruby-1.6.7 :021 > text2.length
 => 9 
jruby-1.6.7 :022 > text2.truncate(5)
 => #<ActiveSupport::Multibyte::Chars:0x4717e412 @wrapped_string="水s...">

可以看到中英混在一起可以正确的计算出长度，然后按照你给出的长度进行截取后会自动补全...，还是挺方便的吧

larryzhao #14 2012年06月07日

回完发现@Rei 之前已经提到了，spammer 了..

需要登录后方可回复, 如果你还没有账号请注册新账号