#2 楼 @kevin__liu 也不一定大啊,GIMP 的 script-fu 用的是 tinyscheme
既然都开源了,用一下travis-ci
啊...
如果 HTML 结构是浏览器解析出来的,那蜘蛛就没法爬了
直接返回给支持 HTML 啊,怎么也得有 fallback,在 Server 端进行 XSLT 的。第一次打开页面的时候,你总得返回个 HTML,万一浏览器不支持,就悲剧了。那个 HTML 里嵌个 JavaScript,检查一下浏览器是否支持 XSLT,支持就设个 cookie。
实际情况是 XSLT 的模板也没法直接 Cache 在本地的,不然模板有修改的时候,没法刷新
用那个 xsl 模板是在 xml 里的 xml-stylesheet 那儿的 href 里指定的
<?xml-stylesheet href="example2.xsl" type="text/xsl" ?>
反正我早就会了......
前端的渲染速度是否好,还不确定
应该比用 JavaScript 渲染 JSON 好多了,毕竟是原生实现啊。另外是用客户端 CPU 换传输时间,是否合算那也只能看情况了。
其实,我现在觉得直接上 xsl-stylesheet 才是正解
#36 楼 @hooopo 这个绕了好大一圈,还不如 pdf2svg,直接从 poppler 画到 cairo 的 SVG 或者 PNG 之类的 Surface 上
要不是 pypoppler 莫名其妙需要依赖gtk.gdk
,一个 python 脚本就搞定了
#!/usr/bin/env python2
import sys
import os.path
import poppler
import cairo
def convert_to_svg(page, filename):
w,h = page.get_size()
surface = cairo.SVGSurface(filename, w, h)
ctx = cairo.Context(surface)
page.render(ctx)
if __name__ == '__main__':
filename = sys.argv[1]
doc = poppler.document_new_from_file('file://'+os.path.abspath(filename), None)
page_nums = map(int, sys.argv[2:]) or range(doc.get_n_pages())
for pn in page_nums:
page = doc.get_page(pn)
convert_to_svg(page, filename+'.%d.svg'%pn)
这个看上去很强大的样子... http://coolwanglu.github.com/pdf2htmlEX/
带 x 的就是 xml 了 Excel 只是基本表格应该没问题 PowerPoint,全绝对定位,只有基本的元素应该也没问题 Word,这个就不知道了
不带 x 的,真不知道了
或许正确的方式应该使用 office 自带功能转换成 html?
LZ 该服老了
为啥 404 啊 ... http://ask.csdn.net/questions/tags/android+java