Gem 有没有网页去噪的 gem?

nine · 2015年07月05日 · 最后由 louis_sherren 回复于 2016年08月02日 · 2315 次阅读

抽取 html 主体内容。不用正则。

ruby-readability 这个 gem 就凑合用吧

#1 楼 @ywjno 3x~ 8 过为什么说 “凑合” 用呢?

#2 楼 @nine 某些页面完全得不到结果自己试就知道了,当然没发现有这种页面的话那就是极好的

readability 各种语言的实现豆有

#3 楼 @ywjno 我用 readbility, 说了留 Img, 结果还是没了...

ruby readability 的效果很一般,建议使用 readability.com 的 API https://www.readability.com/developers/api/parser

#7 楼 @greatghoul api 调用开销太大包括响应时间而且还有次数限制,不适合干爬虫

Nokogiri

#6 楼 @cqcn1991 试了很多种方法 img 还是保留不下来

还是用 Nokogiri 方便

#11 楼 @hammer 哈哈,本来我就是在用 nokogiri,结果发现还有 readability 这东西。 想问下,保存文章前 500 长度中的 img 怎么写?就是想留下标题图,不想要后面的。这个长度没啥想法

html = Nokogiri::HTML(content)
html.css('img').first

这样?

#11 楼 @hammer 你可以用 ruby 去调用 js readability 解析返回的内容,我觉得 js readability 的效果还是不错的,ruby 版本的 port 过来大概有 bug,或者你对照 js 的修一修。

#14 楼 @greatghoul

  • 过多依赖外部环境
  • 流程复杂

不考虑这种情况了

找了一下看到 js 的实现有不少就是不知道说的是哪个

貌似 safari 的阅读器都是用 readability 的

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册