Ruby nokogiri 采集网页的乱码问题

lrbnew · 2014年02月17日 · 2876 次阅读

今天采集网页内容，遇到乱码问题，这里讨论的很热烈http://ruby-china.org/topics/2484，但是原帖内容多且杂乱，看的费劲，这里把解决问题的几段贴出来，方便大家查找参考：

@hooopo的办法 1：

html = open(url).read html.force_encoding("gbk") html.encode!("utf-8") doc = Nokogiri::HTML.parse html doc.css("body")

html = open(url).read html = Iconv.conv("utf-8", "gbk", html) doc = Nokogiri::HTML.parse html doc.css("body")

需要注意，以上代码都是先转码，然后解析。最后，感谢 hooopo 的分享。

1 个赞

无引用文章

需要登录后方可回复, 如果你还没有账号请注册新账号