新手问题 网页内容抓取

匿名 · 2012年08月07日 · 最后由 Jackie 回复于 2017年02月13日 · 3945 次阅读

hey guys, 有没有现成的 ruby gem, 不论页面 source 的 html css 结构如何,抓取到自己

感兴趣的内容,像 nogori 和 mechanize 都是烤 css selector 来抓取,

thank u, :p

by nuclearkitten

没有,话说不靠 css, xpath 你怎么告诉 spider 你感兴趣的内容是什么?

readability 各种语言的库都有

可以看看这个,我觉得挺好用的,https://www.pa1pa.com/

需要 登录 后方可回复, 如果你还没有账号请 注册新账号