Ruby 有没有终极方案解决 “invalid byte sequence in UTF-8”？

iamroody · November 22, 2013 · Last by Thomastar replied at July 17, 2018 · 13878 hits

经常碰到这样的问题，会在系统中修修补补，但是这不是好的实践，大家有方法么？

有看到说有人用“utf8-cleaner”，这个靠谱不？

liwei78 #1 November 22, 2013

我下面很认真的回复了。。。。。

nouse #2 November 22, 2013

ICU

jjym #3 November 22, 2013

全部用英文

nouse #4 November 22, 2013

首先你要知道问题是哪里来的，源代码里面的话加一个头"encoding: utf-8"，读文件的话 Encoding.default_internal = "UTF-8"

1 likes

reus #5 November 23, 2013

最靠谱的办法是彻底理解 byte 和 utf8 都是些什么

gihnius #6 November 23, 2013

试试：str.unpack('C*').pack('U*')

kenshin54 #7 November 23, 2013

5 楼正解，花几个小时理解下编码，以及 ruby 中 encode, force_encoding, unpack, pack 的用法，更多可以看看其他语言编码的处理，就不会需要“终极方案”了。

1 likes

liwei78 #8 November 23, 2013

发现 Iconv 除了一个提示，昨晚写代码的时候正好遇到这个问题了，分享下代码：

# http://www.redmine.org/projects/redmine/repository/revisions/11440/diff/trunk/lib/tasks/migrate_from_mantis.rake
if @charset
    if RUBY_VERSION < '1.9'
        str = Iconv.iconv("UTF-8//IGNORE", "#{@charset.upcase}//IGNORE", line) 
    else
          str = line.to_s.force_encoding(@charset.upcase).encode('UTF-8')
    end
end

cisolarix #9 November 29, 2016

utf8-cleaner 挺好用，可以解决这个问题

Thomastar #10 July 17, 2018

You need to Sign in before reply, if you don't have an account, please Sign up first.