Gem 有没有网页去噪的 gem？

nine · 2015年07月05日 · 最后由 louis_sherren 回复于 2016年08月02日 · 2808 次阅读

抽取 html 主体内容。不用正则。

ywjno #0 2015年07月06日

ruby-readability 这个 gem 就凑合用吧

nine #1 2015年07月06日

#1 楼 @ywjno 3x~ 8 过为什么说“凑合”用呢？

ywjno #2 2015年07月06日

#2 楼 @nine 某些页面完全得不到结果自己试就知道了，当然没发现有这种页面的话那就是极好的

huacnlee #3 2015年07月06日

readability 各种语言的实现豆有

nine #4 2015年07月06日

cqcn1991 #5 2015年07月06日

#3 楼 @ywjno 我用 readbility, 说了留 Img, 结果还是没了...

greatghoul #6 2015年07月07日

ruby readability 的效果很一般，建议使用 readability.com 的 API https://www.readability.com/developers/api/parser

ywjno #7 2015年07月07日

#7 楼 @greatghoul api 调用开销太大包括响应时间而且还有次数限制，不适合干爬虫

ery #8 2015年07月07日

Nokogiri

ery #9 2015年07月07日

nokogiri

hammer #10 2015年07月07日

#6 楼 @cqcn1991 试了很多种方法 img 还是保留不下来

还是用 Nokogiri 方便

cqcn1991 #11 2015年07月07日

#11 楼 @hammer 哈哈，本来我就是在用 nokogiri，结果发现还有 readability 这东西。想问下，保存文章前 500 长度中的 img 怎么写？就是想留下标题图，不想要后面的。这个长度没啥想法

greatghoul #12 2015年07月07日

html = Nokogiri::HTML(content)
html.css('img').first

这样？

greatghoul #13 2015年07月07日

#11 楼 @hammer 你可以用 ruby 去调用 js readability 解析返回的内容，我觉得 js readability 的效果还是不错的，ruby 版本的 port 过来大概有 bug，或者你对照 js 的修一修。

hammer #14 2015年07月07日

不考虑这种情况了

ywjno #15 2015年07月07日

找了一下看到 js 的实现有不少就是不知道说的是哪个

louis_sherren #16 2016年08月02日

貌似 safari 的阅读器都是用 readability 的

需要登录后方可回复, 如果你还没有账号请注册新账号