新手问题申手党：Nokogiri 如何搞定这个文本？

syutran · 2016年01月30日 · 最后由 fresh_fish 回复于 2016年02月14日 · 3725 次阅读

唉~从何说起呢？万恶的谷歌服务器又宕机。向群里伸手只学了个开头，不得已啊只能来这申手。按《提问的智慧》我在百度渡了一阵子，那形式啊走走也是走了啊，对不对？然后，心安理得地来到这儿，开始发问：：：：：

我的文本是这个样子的：

<whcd>第一列</whcd><lxdh>第二列</lxdh><dwxs>第三列</dwxs> ...
<whcd>第一列</whcd><lxdh>第二列</lxdh><dwxs>第三列</dwxs> ...
<whcd>第一列</whcd><lxdh>第二列</lxdh><dwxs>第三列</dwxs> ...
<whcd>第一列</whcd><lxdh>第二列</lxdh><dwxs>第三列</dwxs> ...

我的目的是提取所有行部分列的值，我想用 file.each do |line| 逐行处理，感觉有点笨。群里热心的大佬教我用 Nokogiri，我补习了一小时左右，根据一个例子（XML）搞了几下，卡着拉。

irb(main):001:0> require 'nokogiri'
=> true
irb(main):002:0> @doc = Nokogiri::XML(File.open("27065"))
=> #<Nokogiri::XML::Document:0x15619bc name="document" children=[#<Nokogiri::XML::Element:0x1561584 name="SBJGBH" children=[#<Nokogiri::XML::Text:0x15612a0 "37172713">]>]>
irb(main):003:0> @doc.xpath("/SBJGBH")
=> [#<Nokogiri::XML::Element:0x1561584 name="SBJGBH" children=[#<Nokogiri::XML::Text:0x15612a0 "37172713">]>]
irb(main):004:0> @doc.xpath("/ZGLB")
=> []
irb(main):005:0>

只能 xpath 第一列的数据，搞不到第二列和其它列。我估计是不是我的文件不是个 XML 文件的问题，还是哪儿用错了吗？

Rei #0 2016年01月30日

标题的“伸手党”和正文第一段文字完全没有意义，只会降低获得回答的可能性。

syutran #1 2016年01月30日

自从看了那个加了精的《XX 的智慧》，俺基本上很少发问了，不会就不会吧，反正只是个兴趣使然。有时候想想，哪个坛子里没几个白痴？如果开头的那些话让人感到恶心，也许是我对那个《XX 的智慧》太敏感了吧，I'm sorry.

cqcn1991 #2 2016年01月30日

#2 楼 @syutran 不会就去 stackoverflow 问....真的

syutran #3 2016年01月30日

yes, thank you, I'm going now~

rubyfan1 #4 2016年01月30日

#3 楼 @cqcn1991 如果觉得这个问题太简单，应该去 stackoverflow 问，那么在 stackoverflow 上问这个问题的，不也是伸手党么？

cqcn1991 #5 2016年01月30日

#5 楼 @rubyfan1

如果问题问得不好，那你就会得到 downvote, 多搞几次就想明白应该怎么做了。总比一个人憋着强
stackoverflow 对伸手党的容忍程度高多了。或者说，大家对伸手党的定义不一样。

1 个赞

rubyfan1 #6 2016年01月30日

#6 楼 @cqcn1991 第二点才是正解。

lgn21st #7 2016年01月30日

2012 年 11 月注册，论坛 ID 在 4000 左右，楼主你也是这个论坛的老兵了，对这个论坛的尿性应该很清楚了吧？

WolfLee #8 2016年01月31日

你给的数据样例和程序不匹配，让别人不好帮你，不过我猜只要

@doc.xpath("//ZGLB")

就可以了

davidwei #9 2016年01月31日

楼主给个完整的数据样例比较好让别人帮助你解决。

syutran #10 2016年01月31日

1、到那个 stackoverflow 注册，还得开谷歌的服务器； 2、把这个傻问题提交后，一天得了 -3 分，而且没有任何回复； 3、趁谷歌的服务器没关机，找了几个例子，发现 .xpath("./name") 有戏，捣鼓到现在，算是把问题解决了，虽然方法更笨：

1、文档头尾加上<doc> </doc> 把整个文档圈起来；
2、同方法用<line></line>把每行圈起来；

require 'nokogiri'
# require 'ruby-pinyin'
doc = Nokogiri::XML(File.open("27065"),nil,"gbk")  # 27065是个文件名
nfile = File.new(File.join("./","output.txt"), "w+")　#转换成新文件
print "doing"　#在console里看进度，因为数据量大，有点动静就不是死机
i = 0
doc.xpath("//LINE").each do |l|
    i += 1
    # PinYin.of_string(l.xpath("./XM").text)　#把汉字姓名转拼音　报错
    l.xpath("./XB").text == "1" ? xb = "M" : xb = "F"　#原文中　男＝1，女＝2
    nfile.puts i.to_s.rjust(7,'0') + "|A|" + l.xpath("./SFZHM").text + "|" + xb + "|"  + l.xpath("./XM").text + "|" + " " + "|" + l.xpath("./TXDZ").text + "|" + l.xpath("./CSRQ").text + "|" + l.xpath("./YZBM").text + "|" + l.xpath("./SBKKH").text
    print "."　#高大上的进度条
end
print "done"　#进度条结束

1、只是没有把汉字转拼音搞定。 2、多谢各位大佬鼓励~，春节愉快！

syutran #11 2016年01月31日

社保局给我们银行的数据是这样子的：而我们只需要其中的部分字段而且用“|”分割，才能导入到我们的系统。几万行数据，本来用 vi 能搞定，用 sed 和 awk 也能搞定，但我更想用 ruby 搞定，而且我还想用 rails 做成 web 搞定，以后用起来更方便。因为有百多家银行都要转换它。唉，先慢慢来吧！