Ruby Ruby2.0+ 的内部编码设计，以及 Windows 的问题

kiol · 2013年08月14日 · 最后由 kiol 回复于 2013年08月23日 · 5569 次阅读

最近想把一个 1.8.7 上做的一个内部测试框架，转到 ruby2.0 上。因为是在 window 上用的，而我们的代码都是 utf-8 编码编写的，在 windows 上的 ruby1.8.7 编码很多不能满足我们要求的地方，我们做了很多 hack 操作，比如在文件路径做一下 utf-8 到 gbk 的转码等等。

现在 ruby2.0 来了，而且编码上有了很大的变化，而且据说 windows 上启动速度也快很多，所以就动了升级的念头。过程中碰到了很多的问题，通过修改 ruby 的底层 C 代码解决了一些问题，也给社区提交了一些 bug 和补丁，但是和 ruby 开发团队的交流有点儿问题，谁让咱英语不过关呢。所以把自己的一些收获和问题发出来，希望大家能一起交流一下。

现在主要修改的是 Ruby 的 trunk 版，所以以下的 ruby 指的都是 trunk 版。所有问题也是在 windows 下出现的。

ruby 内部有四个 encoding，internal encoding,external encoding,locale encoding,filesystem encoding，好像还有一个 src 的 encoding，我没怎么接触到，默认好像是 utf-8。一般我们能够指定的是内部和外部编码，用-E 参数可以指定。

我的理解是：

internal encoding 是内部的编码，默认情况下 ruby 代码的字符串都应该编码成这个编码。
external encoding 是外部的编码，从外部加载进入的内容大多是这个编码。
locale encoding 是本地 locale 的编码，和 external encoding 有一定关系，如果没有指定 external encoding 的话，应该默认就是这个编码（我没有确认）
filesystem encoding 是文件系统的编码，例如打开文件，枚举目录都返回的内容的编码。

locale encoding 和 filesystem encoding 都是内部实现使用的，如不要代码中一般用不到。

现在的问题是，ruby 内部代码中并没有在所有的边界的地方把编码转换成 internal encoding，比如$LOADPATH 是 locale encoding。导致直接 require 中文文件会编码不兼容错误。

好像 ruby 内部实现并不是按照我说的这个编码原则，我也不知道 ruby 编码原则是啥，也找不到相关的文档，不知道大家有没有相关的信息，或者有知道的也一起讨论一下。

4 个赞

luikore #0 2013年08月14日

locale encoding 应该是对应 LC_* 设置？windows 没有. external encoding 主要处理 IO 的自动转换，但是可以在 open 加 :encoding 参数来覆盖默认的编码设置. filesystem encoding 主要用来对付文件名. src encoding 是 internal encoding, 主要是字符串/正则字面量的编码，设置 #coding: binary 的话直接在源文件写 gbk 的字符串也是可以的 (有时要手动 force_encoding 一下).

ruby 不统一内码的，字符串自带 encoding 信息，根据你的需求选择编码，可以减少很多不必要的转换

bhuztez #1 2013年08月14日

#1 楼 @luikore Windows 不需要吧。都用 W 函数

luikore #2 2013年08月14日

#2 楼 @bhuztez 表面上看来没有转换，实际上系统在读写文件时悄悄做了转换... 用 ruby 可以全程无编码转换的处理 gbk 文本的

kiol #3 2013年08月14日

windows 下如果用全程 gbk 的话是很爽，但是我们希望用 utf-8 写代码，就遇到很多问题

kiol #4 2013年08月14日

#1 楼 @luikore locale 在 Windows 下是基于 ConsoleCP，这个会导致一定的问题。sublime 调用时，ConsoleCP 会是 utf-8 的 codepage 而不是 GBK 的 codepage，但是传的文件名参数又是 GBK 编码的，所以会导致不能执行中文文件名的 rb 文件，没找到 sublime 的改动方法，就直接把 ruby 里面写死成 GBK 了。sublime2 好像可以改，我用的是 3.

luikore #5 2013年08月14日

#5 楼 @kiol -_- sublime 啊... 大概是 python 的问题...

kiol #6 2013年08月14日

其实内外统一编码的话，一般不会有啥问题，但是如果不统一的话，现在 ruby 内部实现，我看不到清晰的原则。真想自己 fork 一份改一下

kiol #7 2013年08月14日

#2 楼 @bhuztez ruby 内部一部分使用带 W 的 api，一部分没有，这也是比较郁闷的：（。

kiol #8 2013年08月15日

没什么人关心啊，大家是不在 windows 下用吗？还是都是做 rails 的，很少和本地系统打交道啊？

sevk #9 2013年08月15日

你的源代码 xxx.rb 里面都这样写：

#!/usr/bin/env ruby
# -*- coding: utf-8 -*-

当然 xxx.rb 本身也是 utf-8 存储。(用记事本打开，另存为时显示的是 UTF-8，或找个能显示编码的编辑器）

然后你的项目的数据库存储也用 utf-8 . (不然需要 iconv 转换一下，ruby2.0 用 Converter 转换。)

你的项目的配置文件或其他 dat 格式，bin 格式用 utf-8 存储。File.open('xx.dat', "wb:UTF-8")

这样就符合你的需求了。ruby2.0 不用关心文件名是用什么存储的。

luikore #10 2013年08月15日

#9 楼 @kiol 这是 windows + sublime 特有问题... sublime 不该修改 windows 的 console cp 的，chcp 65001 之后啥都干不了...

在 sublime 设置里加个环境变量试试？RUBYOPTS=-Egbk:utf-8

blackanger #11 2013年08月15日

Ruby 是用 CSI，直来直去的，默认的 internal_encoding 是空的，Ruby2.0 里内部编码和外部编码都是 IO 的编码，可以在程序里指定。-E 参数影响的是默认的外部编码，如果你不指定的话，就用这个默认外部编码，默认内部编码是没有的，也就是你说的，Ruby 本身没有设置 internal_encoding。源文件编码是只和程序的源文件有关的，也就是 1.9 里指定的神奇注释 "#ecoding:utf-8"这种，但是在 Ruby2.0 里已经不需要指定了，默认 utf-8 的。

1 个赞

kiol #12 2013年08月15日

#10 楼 @sevk 谢谢回复哦。主要希望从底层解决编码问题，这样其他人写代码不再需要指定编码啥的。比如调一个命令行命令的返回值啥都要特出处理的。而且$LOADPATH 实际上是本地编码的，也就是 GBK 的，如果直接 require‘中文文件“就挂了，因为 ruby 源码里面生成的字符串的编码都是 UTF-8 的，所以和$LOADPATH 整合时就出问题了。

kiol #13 2013年08月15日

还有中文路径的异常输出的也都没有合理的进行编码的。我是做一个底层框架，给测试人员使用，测试大量使用中文文件名和中文函数名，我的期望是他们不需要关心编码问题，并且中文的输入输出啥的都没有问题。

sevk #14 2013年08月15日

#13 楼 @kiol

$LOAD_PATH 里面如果有中文，windows 下面一定是 gbk 的。

如果直接 require‘中文文件“就挂了

解决办法是：


file = '数据.rb'
file.force_encoding('gbk') if win_platform?
require file

kiol #15 2013年08月16日

#15 楼 @sevk 谢谢，这个方法我知道，我就是觉着很丑。我把 ruby 底层改了，直接返回的就是 UTF-8 编码的$LOADPATH。还有一个原因是这些代码是要让我们的自动化测试人员写的，每个人写的时候都做这样的 hack，不太好，以后也不好维护。

kiol #16 2013年08月16日

我个人认为这应该是 ruby 的 bug，我给他们提了个 bug，不过好像没人改。所以说我不知道 ruby 的编码原则到底是什么，这到底算不算 bug。

kiol #17 2013年08月16日

#11 楼 @luikore 我给 sublime 提了个 bug，http://sublimetext.userecho.com/topic/229067-build-system-can-not-handle-utf-8-args/ 不过可能是 windows 下中文用户比较少吧，没人关注。兄弟帮我顶一下？

sevk #18 2013年08月18日

不过文件名用中文，感觉是不规范的行为。就像数据库字段名用中文一样，不规范。

而且 NTFS 文件系统，文件名存入硬盘时，其实是 UTF-16 的。

kiol #19 2013年08月23日

#19 楼 @sevk 你这个是把习惯当成了规范。难道英文比中文高级？英文就规范，中文就不规范。我们用英文是为了和世界接轨和国际的程序员交流。如果交流范围限制在公司内，而且大家英文不是特别好，用中文的好处更多。当然语言和数据库本身的支持是另一个问题。

需要登录后方可回复, 如果你还没有账号请注册新账号