新手问题有什么提取页面文本内容的 gem、方法吗？

cqcn1991 · 2019年06月07日 · 最后由 zhou1_zhen2 回复于 2019年06月14日 · 1420 次阅读

比如说，给定一篇文章/博客的 URL，提取出中的正文。免去手工写爬虫定位元素的必要

找了一下，似乎有这 2 个 gem

请问目前有什么比较好的方法？

w7938940 #0 2019年06月07日

没有万能的方法方法吧，不同的博客布局格式都不一样

cqcn1991 #1 2019年06月07日

对

那个 Python 的可以，我刚试了

Rei #2 2019年06月07日

觉得现有的不够好不是可以开心的开发轮子吗？

qq2729877005 #3 2019年06月08日

用 nokogiri 自己写一套捕获规则，慢慢总结

kalel #4 2019年06月10日

可以试一下这个，基于行块分布函数的通用网页正文抽取算法 reorx/cx-extractor

ruby 版的，写的比较简陋 cx_extractor

zhou1_zhen2 #5 2019年06月14日

我们现在开发的爬虫就仿 Python 写了一个你想要的功能，自己开发一个就好了

需要登录后方可回复, 如果你还没有账号请注册新账号

共收到 6 条回复

新手问题 有什么提取页面文本内容的 gem、方法吗？