<body>
<div id='div1'>111</div>
<div id='div2'>222
<div id='div3'>333
<div id='div4'>444</div>
</div>
<div id='div33'>bbb</div>
</div>
</body>
比如: div2 元素自身的 text 为 222.但使用 nokogiri 获取 div2 的 text 文本时,会包含 div2 的各级子元素的文本,比如 div3 和 div4 的 text 文本也包含在内。 而我只想要 div2 自身的 text 文本,即只要 222。
require 'nokogiri'
html = Nokogiri::HTML(open 'test.html')
div2_obj = html.xpath("//*[@id='div2']")
div2_text = div2_obj.to_s #这样会获取到div2各级子元素的文本