抽取 html 主体内容。不用正则。
ruby-readability 这个 gem 就凑合用吧
#1 楼 @ywjno 3x~ 8 过为什么说“凑合”用呢?
#2 楼 @nine 某些页面完全得不到结果自己试就知道了,当然没发现有这种页面的话那就是极好的
readability 各种语言的实现豆有
#3 楼 @ywjno #4 楼 @huacnlee 好的
#3 楼 @ywjno 我用 readbility, 说了留 Img, 结果还是没了...
ruby readability 的效果很一般,建议使用 readability.com 的 API https://www.readability.com/developers/api/parser
#7 楼 @greatghoul api 调用开销太大包括响应时间而且还有次数限制,不适合干爬虫
Nokogiri
nokogiri
https://rubygems.org/gems/nokogiri
#6 楼 @cqcn1991 试了很多种方法 img 还是保留不下来
还是用 Nokogiri 方便
#11 楼 @hammer 哈哈,本来我就是在用 nokogiri,结果发现还有 readability 这东西。 想问下,保存文章前 500 长度中的 img 怎么写?就是想留下标题图,不想要后面的。这个长度没啥想法
html = Nokogiri::HTML(content) html.css('img').first
这样?
#11 楼 @hammer 你可以用 ruby 去调用 js readability 解析返回的内容,我觉得 js readability 的效果还是不错的,ruby 版本的 port 过来大概有 bug,或者你对照 js 的修一修。
#14 楼 @greatghoul
不考虑这种情况了
找了一下看到 js 的实现有不少就是不知道说的是哪个
貌似 safari 的阅读器都是用 readability 的