今天采集网页内容,遇到乱码问题,这里讨论的很热烈http://ruby-china.org/topics/2484, 但是原帖内容多且杂乱,看的费劲,这里把解决问题的几段贴出来,方便大家查找参考:
html = open(url).read html.force_encoding("gbk") html.encode!("utf-8") doc = Nokogiri::HTML.parse html doc.css("body")
html = open(url).read html = Iconv.conv("utf-8", "gbk", html) doc = Nokogiri::HTML.parse html doc.css("body")
需要注意,以上代码都是先转码,然后解析。最后,感谢 hooopo 的分享。