Ruby 使用 Mechanize 抓网页，出现 encoding error 问题

xingbuxing · 2012年10月19日 · 最后由 johnnyhg 回复于 2013年08月05日 · 10290 次阅读

想把这个网页（http://finance.sina.com.cn/oldnews/2012-03-09.html）上的新闻的链接都抓下来，编写如下程序

require 'mechanize' agent = Mechanize.new page = agent.get('http://finance.sina.com.cn/oldnews/2012-03-09.html')

page.links.each do |link| puts link.text end

运行之后出现 encoding error: input conversion failed due to input error,bytes 0xE9 0x46 0xBB 0xF9

程序会有输出，但是输出中只把这个页面中的一部分的链接抓了下来，只抓到这条新闻“2 月 CPI 同比上涨 3.2% PPI 与去年同月持平”，下面的就没有了。

求问大神们如果解决这个问题，谢谢！

2 个赞

无引用文章

使用 Mechanize 抓网页，出现 encoding error 问题，恼人的编码问题

blacktulip #0 2012年10月19日

完全按楼主的代码运行后出现两条错误信息

> ruby test_mechanize_encoding.rb > test_mechanize_encoding.txt
encoding error : input conversion failed due to input error, bytes 0x46 0xBB 0xF9 0xD6
encoding error : input conversion failed due to input error, bytes 0x51 0x3A 0xD7 0xF6

但是链接倒是全扒下来了，最后几个是


About Sina
广告服务
联系我们
招聘信息
网站律师
SINA English
会员注册
产品答疑
版权所有

cxh116 #1 2012年10月19日

加上 encoding 貌似不报错了，但还是不行

require 'mechanize'
agent = Mechanize.new
page = agent.get('http://finance.sina.com.cn/oldnews/2012-03-09.html')
page.encoding = 'gb2312'

page.links.each do |link|
  puts link.text
end

可以尝试换个 html parse

2 个赞

blacktulip #2 2012年10月19日

原来可以这样选 encoding。是的，加上 page.encoding 之后就正常不报错了

xingbuxing #3 2012年10月19日

#2 楼 @cxh116 谢谢您的回答哈，这样子确实不报错了，但是内容还是没有全抓下来，真是不知道为什么

xingbuxing #4 2012年10月19日

#1 楼 @blacktulip 为什么你那里链接就能全部抓下来呢。。

ywencn #5 2012年10月19日

require 'nokogiri'
require 'open-uri'
url = 'http://finance.sina.com.cn/oldnews/2012-03-09.html'
page = Nokogiri::HTML(open(url))
page.search("a").map(&:text)