Ruby nokogiri 采集网页的乱码问题

lrbnew · 2014年02月17日 · 2793 次阅读

今天采集网页内容,遇到乱码问题,这里讨论的很热烈http://ruby-china.org/topics/2484, 但是原帖内容多且杂乱,看的费劲,这里把解决问题的几段贴出来,方便大家查找参考:

@hooopo的办法 1:

html = open(url).read html.force_encoding("gbk") html.encode!("utf-8") doc = Nokogiri::HTML.parse html doc.css("body")

@hooopo的办法 2:

html = open(url).read html = Iconv.conv("utf-8", "gbk", html) doc = Nokogiri::HTML.parse html doc.css("body")

需要注意,以上代码都是先转码,然后解析。最后,感谢 hooopo 的分享。

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请 注册新账号