as181920 (Andersen Fan)

抄书篇 - 用 Ruby 执行一个 huggingface diffusers 模型来生成图片

as181920 — Fri, 10 Jan 2025 23:43:13 +0800

之前群里有人提起 Ruby 的 AI 生态，这个领域还是 py 的天地，就跟前端是 js 的天地一样。

但是有劳模Andrew Kane做了好多工作，各种常用库的封装，大模型的对接比如 huggingface 上 transformers 的调用informers，这产出着实让人赞叹。

实现的基本逻辑是使用onnxruntime这个通用大模型格式作为底层调用，上面封装调用。

对于有些没有 onnx 格式的（huggingface 上主要是 safetensors 格式较多），可以使用 optimum-cli 命令去一键转化格式。

想体验下用文本生成图片，py 只需要五行代码，用 Ruby 发现没有现成的封装，再看一下 huggingface diffuser 的结构 (model_index.json) 是几个模型 (tokenizer/embedding/unet/vae) 组合起来使用，需要多个模型前后组合起来调用。怎么办，咱抄书，以下是抄书内容非原创，原文在这里。

(插一段题外，遥记得十几前考 pmp 的时候，讲师建议没把握的可以把书抄一遍，当初就是手抄了一遍，笨办法也是办法。)

起步，先把大模型拿下来 (文档用的"CompVis/stable-diffusion-v1-4"，这里用的"stable-diffusion-v1-5/stable-diffusion-v1-5")

optimum-cli export onnx --model stable-diffusion-v1-5/stable-diffusion-v1-5 onnx

准备，来一段文本，这个我会

prompt = ["The godzilla is watching hello kitty doing her homework, they get along harmonious"]

Next，模型准备好备用

text_encoder = OnnxRuntime::Model.new("./onnx/text_encoder/model.onnx")
unet = OnnxRuntime::Model.new("./onnx/unet/model.onnx")
vae_decoder = OnnxRuntime::Model.new("./onnx/vae_decoder/model.onnx")

Next，把文本用 tokenizer 转换成 tokens

tokenizer = Tokenizers.from_pretrained("openai/clip-vit-large-patch14") # openai/clip-vit-base-patch32
tokenizer.enable_padding(length: 77, pad_id: 49407)
tokenizer.enable_truncation(77)
text_tokens = tokenizer.encode_batch(prompt)
text_ids = Torch.tensor(text_tokens.map(&:ids))

Next，把 tokens 做 embedding 生成模型输入需要的向量数据格式

text_embeddings = Torch.no_grad do
  text_encoder
    .predict({ input_ids: text_ids }) # Shape: 1x77
    .then { |h| Torch.tensor(h["last_hidden_state"]) } # Shape: 1x77x768
end

Next，按 diffusers 设计加入 padding 数据

uncond_tokens = tokenizer.encode_batch([""] * batch_size)
uncond_ids = Torch.tensor(uncond_tokens.map(&:ids))
uncond_embeddings = text_encoder
  .predict({ input_ids: uncond_ids })
  .then { |h| Torch.tensor(h["last_hidden_state"]) } # Shape: 1x77x768
text_embeddings = Torch.cat([uncond_embeddings, text_embeddings])

Next，创建 unet 模型生图用的初始 noise 数据

height = 512
width = 512
channels_num = unet.inputs.detect{ |e| e[:name] == "sample" }[:shape][1]
generator = Torch::Generator.new.manual_seed(0) # Seed generator to create the initial latent noise
Torch.manual_seed(0)
latents = Torch.randn([batch_size, channels_num, height / 8, width / 8], generator:, device: DEVICE) # Shape: 1x4x64x64

Next，unet 模型需要一个 scheduler 来进行一步步降噪并行成最终与 prompt 对应的图片。

scheduler 实现靠“大模型自举”就是让 gpt 生成结果失败，最后只能照着 diffusers源码手抄一份Ruby 版 PNDMScheduler。

scheduler = PNDMScheduler.new(steps_offset: 1, timestep_spacing: "leading")
latents = latents * scheduler.init_noise_sigma # Scaling the input with the initial noise distribution, sigma
num_inference_steps = 25 # denoising steps
scheduler.num_inference_steps = num_inference_steps

Next，主体部分，按 scheduler.timesteps 多次调用 unet 模型来 denoise 数据

guidance_scale = 7.5
scheduler.timesteps.each do |timestep|
  latent_model_input = Torch.cat([latents] * 2)
    .then { |input| scheduler.scale_model_input(input, timestep:) }

  noise_pred = Torch.no_grad do
    unet
      .predict({ sample: latent_model_input, timestep: Torch.tensor(timestep), encoder_hidden_states: text_embeddings })
      .then { |h| Torch.tensor(h["out_sample"]) } # Shape: 2x4x64x64
  end

  noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
  noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)

  latents = scheduler.step(noise_pred, timestep, latents)[:prev_sample]
end

Next，数据生成好了，只需要调用 vae 把向量 decode 成 image 数据

latents = latents / 0.18215
image = Torch.no_grad do
  vae_decoder
    .predict({latent_sample: latents})
    .then { |h| Torch.tensor(h["sample"]) } # Shape: 1x3x512x512 这里可以看到转换成一张图片三个channel(RGB)及512像素
end

Final，保存图。

image = ((image / 2.0) + 0.5).clip(0, 1)
image = image[0] if image.ndim == 4
image = image.permute(1, 2, 0) # 调整维度顺序，从 (C, H, W) 到 (H, W, C)
image = (image * 255).round.to(Torch.uint8) # 转换到 uint8 并放大到 [0, 255]
output_height, output_width, _channels = image.shape
png = ChunkyPNG::Image.new(output_width, output_height)
height.times do |y|
  width.times do |x|
    r, g, b = image[y, x, 0..2].map(&:to_i) # 取 RGB 值
    png[x, y] = ChunkyPNG::Color.rgb(r, g, b)
  end
end
png.save("./output-rb.png")

在老旧笔记本上 (Linux Intel 9th i7，未使用 GPU) 同时执行 ruby 和 python 脚本的耗时

Ruby:

real 4m11.149s user 21m52.781s sys 0m8.744s

python:

real 4m18.794s user 23m1.629s sys 0m55.203s

其中时间有差异，应该是 onnx 自身优化的缘故，都是大模型的耗时，与调用语言关系不大。

结果

原始代码在这里供参考

其它，

图像不好看，剩下就是模型调优和结构设计修改的事情，调用代码还是差不多的。只是如果替换或者修改了其中组件，一般就需要补上训练过程，因为预训练的 text2image 的权重参数对应关系已经不适用了。上面生成图片没有原始文档中生成的好看，大致是因为 tokenizer 不完全一致的缘故。
设置 seed 是为了生成相同的数据方便 debug（比如跟 python 数据 step by step 进行比对这种笨办法）
cuda 本地安装编译支持 cpu 版本，不强制依赖 gpu 设备
PNDMScheduler 只调试了当前 demo 执行到的部分，其余部分可能有 bug，DDIMScheduler 未使用和测试。
使用 GPU(cuda) 会快很多，几乎不用等，需要在各个 Torch.tensor(...) 加 to("cuda")，偷懒未做适配。

使用 Turbo 处理 modal 弹框和下拉加载的方法和遗留问题

as181920 — Mon, 28 Jun 2021 11:06:05 +0800

从 Turbolinks 升级到 Turbo 后，先升级后补课中，2 个常见功能的处理：

手机端常见的下拉到底部加载下一页，之前做法是 js 判断到底部后，remote get 下一页数据，通过 js.erb 来 append html。使用 turbo frame 可以不写 js，不改动 controller 的情况下，直接 view 层 list 展示时，通过嵌套 lazy load turbo_frame，当其进入视窗自动加载来实现。

<%= turbo_frame_tag "posts_#{@posts.current_page}" do %>
  <%= render "post_list" %>

  <% unless @posts.last_page? %>
    <% turbo_frame_tag "posts_#{@posts.next_page}", loading: :lazy, src: url_for(page: @posts.next_page) do %>
      <div>loading...</div>
    <% end %>
  <% end %>
<% end %>

遗留问题：某些场景下拉到底部显示加载中的等待体验不满足客户需求，需要在下拉到一半时就预先加载下一页，还没有想到处理方法。

常见的点击编辑按钮弹出 modal 的情况，之前同样是 remote get 后通过 js.erb 来 append modal 框。turbo 可以通过 link 的 data 属性指向 trubo frame id 来 load modal 内容 (弹出 modal)

<%# index.html.erb %>
<%= link_to "edit", [:edit, post], data: {turbo_frame: "modal_frame_id" }%>
<%= turbo_frame_tag "modal_frame_id" , target: "_top", class: "modal_frame" %>

<%# edit.html.erb%>
<%= turbo_frame_tag "modal_frame_id" %>
  <div class="modal">
    <div>modal content</div>
    <%= button_tag "Cancel", data: {dismiss: "modal"}, onclick="this.closest('.modal_frame').src='';this.closest('.modal').remove();" %>
  </div>
<% end %>

遗留问题：由于是 get 请求，重复点击时候如何重新渲染没解决，通过 src 清空临时处理；这里 dismiss 自动关闭没生效，通过 onclick 临时 remove 内容；想知道正确的处理方法。

[上海][张江] 服务商家的创新应用，诚邀 Ruby 开发伙伴。

as181920 — Tue, 13 Oct 2015 11:00:27 +0800

本人目前是团队技术人员，诚邀 Ruby 开发同事。

背景：

传统互联网创业公司，之前基于微信开发各种行业解决方案，包括微电商；创业公司难免不断试点新业务来探索市场机会，目前探索做一款基于扫码，服务商户防伪溯源营销等等需求的应用；公司没有 BAT 的大而成熟，也不是初始创业纯花钱，个人认为尚算比较健康。

需求：

基于 Ruby 技术的开发伙伴 2～3 人；需要能独立开发中小应用（要求编程语言、常规 DB 知识，服务器基础、前段基础、代码库操作等）所需要的常规技能；能持续学习；也需要一位有一定项目经验，技术工作为主的同时，能负责应用开发到部署维护运营迭代全过程，并能够应对规模化后遇到的各种性能和拓展需求；协调团队工作和各部门对接，计划管理等。

提供：

常规薪资和福利（基于市场行情），具体可与 hr 详聊；在保证业务产品需求实现和技术产品质量的前提下，尊重技术人员的技术偏好等。

加分项：

有独立项目经验；技术 blog 或者 github 分享库; 代码整洁偏好。

联系方式：

官方：hr@vcooline.com 如果需要非正式的咨询沟通，可以个人 as181920@gmail.com

ps: 公司 hr 官方招聘帖见：https://ruby-china.org/topics/27621

资讯家庭空气检测 DIY 有木有，比如基于树莓派

as181920 — Sun, 22 Mar 2015 22:03:55 +0800

如题，想检测关注家庭的空气、甲醛情况等，不买线程设备，有没有基于树莓派（有了 linux 系统什么都可以干，又不需要性能）之类设备，加购买检测模块，自己构建的方法

主要是方便后续扩展各种自己需要的检测，和居家简易智能需求。

但是网上找相关模块，没有找到甲醛这块的，不熟悉相关领域，不敢随意购买（要钱呀）

有了解的可以给提点下。

kaminari 等分页时 count 大表太慢的时候，大家是如何处理的

as181920 — Wed, 04 Feb 2015 14:07:41 +0800

如题，

时光流逝，人岁渐长，表也越来越大，翻页默认要 count，就越来越慢了。大家一般哪些处理方式？

比如取消总页数显示（无限下拉），但是后台大家还是习惯传统的分页显示。

大家 MySQL 如何存储 emoji 的？

as181920 — Mon, 02 Feb 2015 13:37:39 +0800

emoji 字符在 postgresql 中一切正常，mysql 中需要用 utf8mb4 格式，不知道会有多少影响。

目前由于使用云数据库，基本只能用 mysql 了，没找到比较好的解决方案，有遇到过的给个参考意见：）

咨询个，大家对已成型项目如何维护和持续开发

as181920 — Mon, 22 Dec 2014 13:35:14 +0800

1，成型项目，代码量多，质量参差不齐，正好没测试覆盖，这个时候持续加功能代码经常不稳定，以及低效率。这个时候大家一般会有哪些处理方式方法，提供个思路。

2，如果你很幸运做了一个工程有人用，一两年后，数据量大了，性能问题来了，其中有一些是简单加 db 索引和优化 sql 无法解决的，大家又有哪些处理的方式？

哪位有经验的分享下 rabbitmq 和 zeromq 什么情况应该用哪个

as181920 — Mon, 29 Sep 2014 14:48:46 +0800

如题除了自己找文档，想看看有没有使用过的经验。貔貅源码里面看到用的是 rabbitmq。

God terminate 总是关不掉进程

as181920 — Mon, 14 Jul 2014 23:27:02 +0800

试用 god 来运行和管理一些后台常驻进程和任务，

简单如这几行

God.watch do |w|
  w.name = "logstash_agent"
  w.start = "cd /dyne/apps/logstash-1.4.2 && bin/logstash -f config/agent.conf"
  w.log = "/home/git/logs/logstash_agent.log"
  w.keepalive
end

有 java 的，有 rackup 运行 thin 的，有 ruby 死循环+sleep 的，当需要关闭 terminate 的时候，进程很多都没有关掉，

如果 restart 的话，通常就是多起一个进程。

哪里姿势不对？

纯 ruby 代码常驻进程怎么写的，daemon 这个 gem 好久没动了

as181920 — Fri, 06 Jun 2014 17:39:14 +0800

如题，纯 ruby 代码，监听队列，常驻进程，一般怎么写的？

开发模式静态文件加载时间超长问题有遇到的么

as181920 — Sat, 22 Feb 2014 22:24:45 +0800

开发模式，程序后台运行时间正常，浏览器显示页面超慢，看了下是静态文件加载要到好几秒，不清楚缘故

方式参考：好多网页没看？，发到电子书坐地铁时慢慢看

as181920 — Fri, 21 Feb 2014 16:19:33 +0800

有个习惯问题，就是查网页，结果一堆网页要去看，时间就耗进去了。

如果正好有个 kindle，又正好要蛮长时间坐地铁，可以装浏览器控件，点一下自动就发到电子书，

于是利用地铁的时间干掉这些待看的网页。

<%%= xxx %>双百分号啥个意思

as181920 — Fri, 21 Feb 2014 16:15:40 +0800

有 html 代码加了 js 后好像可以动态写一些 template，如

<%for(var i=0,il=data.length;i<il> ... <p>这个时候在 erb 文件里面会有问题，改成<%% xxx %>即可，这种双百分号是啥个意思？我肯定漏了哪个基础知识哈。</p> </il>

泛泛而问，权限管理一般大家用什么方法

as181920 — Thu, 20 Feb 2014 13:26:34 +0800

权限处理，有 cancan，但不适用所有场景，还有它的维护情况。

一般大家是用什么方式做权限控制的，或者怎么放置权限相关代码的位置？或者自己手写一般哪几个模块设计？

升级 4.0.1 到 4.1.0.beta1 的个别细节

as181920 — Fri, 14 Feb 2014 11:14:16 +0800

原由是想使用 4.1 的 enum 的功能，于是升级。主要参照官网升级说明，还有个别细节：

1，Gemfile，rails 版本改成了 4.1.0.beta1，加了 gem：spring，spring-commands-rspec

2，ransack 默认版本在 4.1 下有问题，需要改成 gem： gem "ransack", github: "activerecord-hackery/ransack", branch: "rails-4.1" gem "polyamorous", github: "activerecord-hackery/polyamorous"

3，model 中 has_many through source 的 source 原来跟 string 可以，现在要改成 symbole 才行

has_many :notes, through: :ownerships, source: 'item', source_type: 'Note'
has_many :notes, through: :ownerships, source: :item, source_type: 'Note'

4，config/application.rb 里面由于不是 require "rails/all"(测试库用 rspec 了)，所以要加 # Pick the frameworks you want: +require "active_model/railtie" require "active_record/railtie" require "action_controller/railtie" require "action_mailer/railtie" +require "action_view/railtie" require "sprockets/railtie" # require "rails/test_unit/railtie"

5，guard 配置中让 rspec 用上 spring -guard :rspec do +guard :rspec, cmd:"spring rspec" do

6，i18n 遇到问题的考虑 Gemfile 设置（临时解决 i18n 本身 bug） gem 'i18n', github: 'svenfuchs/i18n' gem 'rails', '4.1.0.beta1'

另：上次升级用 ruby2.1 遇到基础库 pg 的莫名报错，这次 rvm reinstall 后还没有遇到问题。

附官方文档： http://edgeguides.rubyonrails.org/4_1_release_notes.html http://edgeguides.rubyonrails.org/upgrading_ruby_on_rails.html

对于客户只有一台 windows 服务器且限定 sql server 的时候，怎么处理

as181920 — Fri, 01 Nov 2013 11:52:38 +0800

1，windows 下也可以 rails 2，直接用 jruby 那套 3，直接.net 或者 php 开发

前两个都可以，但是 gem 之类，略有麻烦和些许坑要做，不确定性能（以前都在 linux 下做，经验也不多），不放心；

目前考虑用 3 号方法。大家是怎么弄的。（除了和客户 pk）

纯 omniauth 的用户系统，本地调试怎么弄

as181920 — Fri, 01 Nov 2013 11:47:50 +0800

工程里面没有自身用户系统，用户全部走 omniauth 外站验证，返回的都是外站配置时留的 url，回不到本地 localhost 地址，那本地日常调试使用什么方法最简便

移动端存客户端数据，cookie 和 localStorage 现在哪个兼容性更好。

as181920 — Fri, 01 Nov 2013 11:45:29 +0800

如题，对于手机端的浏览器（手机自带，chrome，opera，qq，360 等常用手机浏览器），以及微信自带的浏览器。

保存一些客户端数据，cookie 和 localStorage 现在用哪个比较好比较兼容

请教动态内容多的网页，用哪个框架或者控件比较好

as181920 — Wed, 30 Oct 2013 17:23:21 +0800

以前都是简单的页面效果，自己谢谢 coffeescript 就好了。

现在有个，页面上很多地方都是动态的，比如上面下拉框选一个，下面图表自动更新，动态切换图表类型。此外页面上各个区块经常要动态换内容。这种手写 js，函数多了可能就会乱，与其自己抽取框架，不如先看看现成框架。

大家有什么推荐使用？ extjs，很多控件有固定式样吧，网页都要自己定义式样，可能修改起来也麻烦；

是直接 pjax 还是用什么 js 框架（angularjs 之类？）

另外复杂一点的图表有哪些控件可选？目前只用过 highchart，不打算用水晶报表。

微信，菜单，json，编码问题

as181920 — Sun, 20 Oct 2013 01:11:14 +0800

微信的自定义菜单的接口要的是 json 格式数据，但是每次 post 过去只要是中文就报（英文都正常）： {"errcode":40033,"errmsg":"invalid charset. please check your request, if include \uxxxx will create fail!"} 没找到怎么处理，有经验的给个解决建议？

详细：微信接口说明：http://mp.weixin.qq.com/wiki/index.php?title=%E8%87%AA%E5%AE%9A%E4%B9%89%E8%8F%9C%E5%8D%95%E6%8E%A5%E5%8F%A3

接口代码： res = HTTParty.post "https://api.weixin.qq.com/cgi-bin/menu/create?access_token=#access_token}{", body: @ui_menu_json, headers: {'ContentType' => 'application/json'}

其中@ui_menu_json是 Jbuilder gem 生成。其实遇到“中文”.to_json 这种、\uxxx 结果的文字，同步的时候都会报错，不知道什么缘故。