开源项目 Nokogiri 能否获得某个网页元素在网页源码中的字符位置?

rubysir · 2016年05月26日 · 1702 次阅读

比如: 第一个 p 标签:p_tag = web_doc.xpath('//p').to_a.first 那个怎么得到这个 p 标签的 outerhtml 字符串在整个 html 源码中的 index 呢? 如果首先得到 p 标签的 outerhtml,然后使用(html_source 为网页源码):html_source.index(P_outerhtml) 这样得到的结果未必准确,因为可以含有多个 p 标签(p 标签的 outerhtml 也相同)。 实际上我想知道,在 nokogiri 使用中,有没有方法在 p 标签对象和 p 标签的 outerhtml 在网页源码中的位置之间,建立一个双向互动的关系。比如: 给定网页源码中的某个字符串的位置,就可以知道该位置处的标签是什么。 多谢!

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请 注册新账号