新手问题 有什么提取页面文本内容的 gem、方法吗?

cqcn1991 · June 07, 2019 · Last by zhou1_zhen2 replied at June 14, 2019 · 1358 hits

比如说,给定一篇文章/博客的 URL,提取出中的正文。免去手工写爬虫定位元素的必要

找了一下,似乎有这 2 个 gem

请问目前有什么比较好的方法?

没有万能的方法方法吧,不同的博客布局格式都不一样

Reply to w7938940

那个 Python 的可以,我刚试了

觉得现有的不够好不是可以开心的开发轮子吗?

nokogiri 自己写一套捕获规则,慢慢总结

可以试一下这个,基于行块分布函数的通用网页正文抽取算法 reorx/cx-extractor

ruby 版的,写的比较简陋 cx_extractor

我们现在开发的爬虫就仿 Python 写了一个你想要的功能,自己开发一个就好了

You need to Sign in before reply, if you don't have an account, please Sign up first.