新手问题 有什么提取页面文本内容的 gem、方法吗?

cqcn1991 · 2019年06月07日 · 最后由 zhou1_zhen2 回复于 2019年06月14日 · 1365 次阅读

比如说,给定一篇文章/博客的 URL,提取出中的正文。免去手工写爬虫定位元素的必要

找了一下,似乎有这 2 个 gem

请问目前有什么比较好的方法?

没有万能的方法方法吧,不同的博客布局格式都不一样

w7938940 回复

那个 Python 的可以,我刚试了

觉得现有的不够好不是可以开心的开发轮子吗?

nokogiri 自己写一套捕获规则,慢慢总结

可以试一下这个,基于行块分布函数的通用网页正文抽取算法 reorx/cx-extractor

ruby 版的,写的比较简陋 cx_extractor

我们现在开发的爬虫就仿 Python 写了一个你想要的功能,自己开发一个就好了

需要 登录 后方可回复, 如果你还没有账号请 注册新账号