新手问题 网页内容抓取

Unknow user · August 07, 2012 · Last by Jackie replied at February 13, 2017 · 3940 hits

hey guys, 有没有现成的 ruby gem, 不论页面 source 的 html css 结构如何,抓取到自己

感兴趣的内容,像 nogori 和 mechanize 都是烤 css selector 来抓取,

thank u, :p

by nuclearkitten

https://github.com/sparklemotion/nokogiri

啊。。没好好看帖子。。。

没有,话说不靠 css, xpath 你怎么告诉 spider 你感兴趣的内容是什么?

readability 各种语言的库都有

可以看看这个,我觉得挺好用的,https://www.pa1pa.com/

You need to Sign in before reply, if you don't have an account, please Sign up first.