Ruby 如何获取文件的编码

junlai · 2012年07月11日 · 最后由 junlai 回复于 2012年07月16日 · 4582 次阅读

用户上传的文本文件，请问该如何获取这个文件的 encoding？以便正确的解析这个文件。

1 个赞

无引用文章

匿名 #0 2012年07月11日

文件编码检测几乎没有 100% 好使的方法。有很特殊的编码就只能用很特殊的方法。我曾经遇到过一个很棘手的问题，靠开源的项目 ude 把问题搞定了：http://www.tylerlong.me/1317193941/. 不过是C#的代码. 原始项目是 Mozilla 写的 C++ 项目。你可以看下有没有相应的 Ruby 移植版本。

2 个赞

Saito #1 2012年07月11日

rchardet19 or charlock_holmes

bhuztez #2 2012年07月11日

https://github.com/batterseapower/libcharsetdetect

1 个赞

zlx_star #3 2012年07月12日

之前玩 1.8 的时候用过 chardet。lz 可以参考，但是请慎重

john1king #4 2012年07月15日

最麻烦的是一个文件里还可能有不只一种编码，虽然这种情况比较少见

open('file', 'w+') do |f|
  text = '如何获取文件的编码'
  f.write text.encode('gbk')
  f.write text.encode('utf-8')
  f.rewind
  puts f.read
end

junlai #5 2012年07月16日

大家回复的方式还没有来得及尝试，以后尝试了再写上来跟大家分享。。因为时间紧，目前就只能解析utf-8和gbk/gb2312两种类型的文件，能解决 95％的问题，其余的就通知用户自己转换好编码再上传。

需要登录后方可回复, 如果你还没有账号请注册新账号