比如说,给定一篇文章/博客的 URL,提取出中的正文。免去手工写爬虫定位元素的必要
找了一下,似乎有这 2 个 gem
请问目前有什么比较好的方法?
没有万能的方法方法吧,不同的博客布局格式都不一样
那个 Python 的可以,我刚试了
觉得现有的不够好不是可以开心的开发轮子吗?
用 nokogiri 自己写一套捕获规则,慢慢总结
nokogiri
可以试一下这个,基于行块分布函数的通用网页正文抽取算法 reorx/cx-extractor
ruby 版的,写的比较简陋 cx_extractor
我们现在开发的爬虫就仿 Python 写了一个你想要的功能,自己开发一个就好了