Gem Nokogiri 编码问题解决

wujian_hit · November 21, 2012 · Last by activeliang replied at August 24, 2017 · 5737 hits

# encoding : utf-8
require 'nokogiri'
require 'open-uri'

#example：baidu encoding：GB2312

html=open("http://www.baidu.com/").read
charset=Nokogiri::HTML(html).meta_encoding#！有些网页没有定义charset则不适用
puts charset
html.force_encoding(charset)
html.encode!("utf-8", :undef => :replace, :replace => "?", :invalid => :replace)
doc = Nokogiri::HTML.parse html
puts doc

或者（个人推荐第二种，这个函数扫便天下）

require 'rchardet19'
def toUtf8(_string)
    cd = CharDet.detect(_string)      #用于检测编码格式  在gem rchardet9里
    if cd.confidence > 0.6
      _string.force_encoding(cd.encoding)
    end
    _string.encode!("utf-8", :undef => :replace, :replace => "?", :invalid => :replace)
    return _string
end

begin
   doc = Nokogiri::HTML(toUtf8(open("http://www.baidu.com/").read))
   puts doc
end

字符编码问题详解：unicode 编码，ruby1.8，ruby1.9 编码机制区别详解： http://about.ac/2012/06/understanding-m17n.html

1 likes

huacnlee #0 November 21, 2012

doc = Nokogiri::HTML(html,nil,"gbk")

这样就可以了，内置编码处理的功能，这样比较靠谱

1 likes

wujian_hit #1 November 21, 2012

#1 楼 @huacnlee 不知道是我代码有问题吗？这段好像不好使。

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open("http://www.baidu.com/"), nil, 'gb2312')
puts doc

huacnlee #2 November 21, 2012

#2 楼 @wujian_hit gbk !!!

wujian_hit #3 November 21, 2012

#3 楼 @huacnlee 555~ 两个都不行。输出还是有乱码...

tomwey #4 November 21, 2012

在设置一个 encoding doc.encoding="网页的编码"

1 likes

kai1248 #5 July 24, 2013

@tomwey 谢谢，解析带中文的 xml 成功

hick #6 August 14, 2013

难道是版本问题？作为 ruby 新手，之前看 ruby 说版本号比较小都是因为升级谨慎---为了保持兼容性。我 ruby 2.0 下前面几楼的代码都不行， @tomwey 那个管用！我解析 utf-8 链接成功。

wujian_hit #7 August 15, 2013

#7 楼 @hick 如果你确切的知道 string 的编码类型，#encoding=‘XXX’就行。如果你也不清楚编码是什么的话，可以用 rchatdet19 这个 gem 猜一下字符串的编码，不过猜的也会有不准的时候，特别是当你的 string 很短时。毕竟是猜的。

wuShiJingZuo #8 October 24, 2014

#1 楼 @huacnlee 加了 nil 之后获取的 html 都少了。。= =

wuShiJingZuo #9 October 24, 2014

按照 lz 的方式搞定。：）

activeliang #10 August 24, 2017

谢谢分享，解决了我的问题。

You need to Sign in before reply, if you don't have an account, please Sign up first.

1 likes

Total 11 replies

New Reply comming, click to load.