假设此变量为:p.text
京ä¸åååä¸å½äºé©¬éä»æ¥ç¹ä»·æ¥ï¿¥1899å é®ï¼åå²ä½ä»·ï¼ä½äºå ¶ä»B2Cæ¸ éè³å°ï¿¥2099以ä¸çæ¥ä»·ã注ï¼æ¤æ¬¾ç®åå·²å¯ä»¥å级å°android 4.0ã
# encoding: utf-8
先用 iconv 转码。
#2 楼 @yangyanhao 网上搜索了下,貌似没有完美的。我现在没有转码,90% 的都没有问题,所以懒得折腾,希望简单化过滤掉就行。
假设 p.text 的编码是 utf8,这样应该就可以把无效字符清除掉:
Iconv.iconv("UTF-8//IGNORE", "UTF-8", p.text).join("")
#4 楼 @yangyanhao thx,我试试
#4 楼 @yangyanhao 貌似不行。解析这个页面还是乱码:http://www.52deli.com/gabriel-6111-100-stainless-steel-vacuum-drink-straight-bottle-extinction-gray-1000ml-53-87.aspx
或许这个有帮助 http://ruby-china.org/topics/2484