Gem 有没有网页去噪的 gem?

nine · 2015年07月05日 · 最后由 louis_sherren 回复于 2016年08月02日 · 2058 次阅读

抽取html主体内容。不用正则。

共收到 17 条回复

ruby-readability 这个gem就凑合用吧

#1楼 @ywjno 3x~ 8过为什么说“凑合”用呢?

#2楼 @nine 某些页面完全得不到结果自己试就知道了,当然没发现有这种页面的话那就是极好的

readability 各种语言的实现豆有

#3楼 @ywjno 我用readbility, 说了留Img, 结果还是没了...

ruby readability 的效果很一般,建议使用 readability.com 的 API https://www.readability.com/developers/api/parser

#7楼 @greatghoul api调用开销太大包括响应时间而且还有次数限制,不适合干爬虫

Nokogiri

#6楼 @cqcn1991 试了很多种方法 img还是保留不下来

还是用 Nokogiri 方便

#11楼 @hammer 哈哈,本来我就是在用nokogiri,结果发现还有readability 这东西。 想问下,保存文章前500长度中的img怎么写?就是想留下标题图,不想要后面的。这个长度没啥想法

html = Nokogiri::HTML(content)
html.css('img').first

这样?

#11楼 @hammer 你可以用 ruby 去调用 js readability 解析返回的内容,我觉得 js readability 的效果还是不错的,ruby 版本的 port 过来大概有 bug,或者你对照 js 的修一修。

#14楼 @greatghoul

  • 过多依赖外部环境
  • 流程复杂

不考虑这种情况了

找了一下看到 js 的实现有不少就是不知道说的是哪个

貌似safari的阅读器都是用readability的

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册