Ruby 2024 年了，我还在用薄荷 18 年分享的 10 条最差实践建功立业😂

sidekiq · December 06, 2024 · Last by 693856 replied at December 22, 2024 · 2145 hits

Topic has been selected as the excellent topic by the admin.

引言（喝酒后的碎碎念，可以跳过，直接从前提看起）

离开薄荷 3 年了，从 18 年初进入薄荷到 21 年 9 月离开，在薄荷将近 4 年的时间，我从团队拿工资最低的技工程师，历经火箭升迁，压力成长，成为独当一面的部门主管，在项目管理（需求评审、架构设计、人员分配、跨端配合、安全审计）、团队管理（招聘淘汰、成员成长、梯队建设、制度文化）、发展创新（新技术调研落地、项目可行性分析、立项决策）上，都留下了不少的痕迹；
后面加入大型外企，半退休远程了，我才发现自己不适合做远程，我更喜欢融入一群人中默默贡献，比起老家深山中的幽静、智者乐水更适合我，况且在薄荷做 leader 后养成了一些权限依赖习惯，我在束手束脚的审批、infra、响应时间上难以适应，最后新工作两年不到就草草收场了；
个人的兴趣点一直在 iot 上，刚过去的 11 月底我终于鼓起勇气到了深圳，加入了一家高速发展的中型软硬件公司（1000 人+），CTO 如是对我说：“我希望你不要做体力活，做最能发挥你能力的事情就行了”，开放了几条业务线的代码，我便开始工作，用 8 年坚持每天刷 github trending（过年除外）的技术鼻子开始嗅嗅代码；
在迅速提交了 4 次重大解决方案后，我不到两周便迅速站稳了脚跟，得到了同事和创始人的信任。我才发现自己原来还在吃在薄荷的老本，于是打算把这些大家习以为常的东西整理一下再讲一遍，温故知新；
其实我没完全记住薄荷 10 条，因为几个太基础，我就忘记了，但鲁迅说过，中国人就喜欢凑个十数（真的，我基本上全文阅读过鲁迅全集，出自《再论雷峰塔的倒掉》），还是凑一些需要作为后端常识来认知的东西；
我现在写 go，ruby 和 rails 留下的最佳实践在其他语言的学习者中鲜有了解和实践，所以给了我降维打击的机会。

前提

互联网企业，尤其是面向终端用户和合作商的企业，安全是第一考虑要素；
软件工程师的上限是由努力和天赋决定的，但底线是由公司基因、研发流程和文化决定的；
很少有软件工程师注意到安全的话题，大多是在繁重的需求压力下完成开发，安全无小事，出事就是大问题。

正题索引

【数据库】不要在任何区分度低的字段上加索引（如 status、各种 enum）
【数据库】发布前一定要检查 migration，大表手动处理
【数据库】在 rails 中，transaction 开始的地方在第一个查询的地方，需要优化的话，将 before_action 挪后
【缓存】不要滥用 Rails.cache 方法，超过 1k byte 的 redis key，一定要做二级缓存
【业务】不要信任所有的前端传入 id，必须要做归属校验
【异步任务】尽可能实现幂等，至少本地数据库一定要实现幂等
【代码】任何 secret 不能硬编码到代码，小到短信 template_id，大到 jwt_secret，优先放环境变量，其次放数据库
【代码】开发前，先建立分支，写设计，review 后再编码
【常识】ruby 并不慢，大多数性能问题都是数据库、外部依赖的问题（先查 n+1，做好监控）
【常识】内存飙升问题

【数据库】不要在任何区分度低的字段上加索引（如 status、各种 enum）

大多数情况下（如果你清楚你的区分度，并且完全理解），不管 MySQL 还是 PG 都适用，在 status 上加索引只有坏处

即使命中，也大概率是半表扫描；
如果 status 和 id 等业务参数一起查，有概率会走 status 索引而不走业务参数的索引，需要知道详情请将这句问 GPT。这个不多解释，GPT 能告诉怎么做才是最优。

【数据库】发布前一定要检查 migration，大表手动处理

各种数据记录表，如用户登陆记录等，如果需要增加字段，一定要清楚数据量，我们一般认为（有科学依据，以 B+ 树深度未依据）百万级、千万级、亿级数据锁表时间是有明显差距，百万级的表想要不停机发布，就需要上工具了，比如 percona-toolkit 等，先增加字段后，再手动添加 migration 记录

【数据库】在 rails 中，transaction 开始的地方在第一个查询的地方，需要优化的话，将 before_action 挪后

一个请求开始后，rails 会在第一次进行数据查询的地方，开启 transaction，待请求结束后，有框架方法执行兜底的 commit，如果请求中有网络操作，而你正好用的是 pg，那在并发上来后，会有长事务问题，最好先把网络请求进行完，确保 transaction 的过程时间短且可控。根据业务自行取舍，因为 before_action 挪后意味着 current_user 的查询也会要挪后。

【缓存】不要滥用 Rails.cache 方法，超过 1k byte 的 redis key，一定要做二级缓存

如果不是经常更新的内容，比如首页的 Banner 和广告这类首页接口，并发量最大，而且更新少，就太适合全部放到 Rails 应用中进行缓存，而不是每次都消耗内网带宽和延时从 redis 中拿，能将接口返回速度提升到微秒级别。

【业务】不要信任所有的前端传入 id，必须要做归属校验

千万不要写 Order.find(params[:id])这样的代码，只要知道 order_id 任何人都可以访问这个资源，current_user.orders.find(params[:id]) 是最佳方式。

【异步任务】尽可能实现幂等，至少本地数据库一定要实现幂等

幂等大家都知道，不过多解释，为什么说尽可能，因为可能有外部网络操作。网络操作一定要放到最后进行，而且不能太慢返回，在 web api 的 k8s 的 preStop 生命周期函数中传入类似 sleep 10，给 sidekiq 10s 做完退出大多数情况也能搞定。

【代码】任何 secret 不能硬编码到代码，小到短信 template_id，大到 jwt_secret，优先放环境变量，其次放数据库

安全无小事，希望大家所在的公司一辈子都不要被公众视野注意到（上市除外，打新记得叫我🤣）

【代码】开发前，先建立分支，写设计，review 后再编码

改天另写一篇，有完整且成熟、适合中国宝宝的流程推荐，如果你已经在这种流程了，那说一声恭喜，业务开发也可以很有趣的。

【常识】ruby 并不慢，大多数性能问题都是数据库、外部依赖的问题

首先完善监控，uptrace 这些社区工具都蛮好用的，买国内的 grafana 包装服务观测云这些也不错，至少能掌控系统整体运行状况，如果自研，一定要符合 open-telemetry 规范，不然轮子得很多。

【常识】内存飙升问题

一般是有外部服务，比如 qrcode、分享等图片生成、大 excel、网页生成 pdf 等，一方面我们需要在 dockerfile、服务器安装一大堆依赖，另外还会再占用一堆内存，优化方法也很简单，用 golang 或者就用 ruby 写一个服务，打包放到 serverless 里面去，按量计费，既不占用宝贵的 connection pool 资源，也能移除这种低频次高消耗接口对业务系统带来的损耗。

致谢

感谢薄荷健康的联合创始人、CTO @Vincent 4 年来的谆谆教诲和言传身教，作为华东 Ruby 黄埔军校毕业的一员，感谢你给一个热爱技术的年轻人的机会。

讨论

今天临时起意写这篇文章，有感于“回流”团队 CTO 智恒在公众号的技术和管理分享，觉得作为老 RubyConf 讲师，今年没能参加会议，有必要将这些年的沉淀分享下，线下不能线上总行嘛（我现在 996😂）。喝了 3 瓶乌苏，就开始敲键盘了，标点符号、排版、错别字等问题一堆，大家能就好啦🙏，有任何问题欢迎讨论，如果不便公开分享也请加我的 w：plugine

44 likes

lyfi2003 #0 December 06, 2024

非常实用的经验总结，已经分享给自己团队。

1 likes

martin91 #1 December 06, 2024

而且更新少，就太适合全部放到 Rails 应用中进行缓存，而不是每次都消耗内网带宽和延时从 redis 中拿

这是指放进程的内存缓存吗？

martin91 #2 December 06, 2024

我才发现自己不适合做远程，我更喜欢融入一群人中默默贡献，比起老家深山中的幽静、智者乐水更适合我，况且在薄荷做 leader 后养成了一些权限依赖习惯，我在束手束脚的审批、infra、响应时间上难以适应，最后新工作两年不到就草草收场了

痛点上有同感，不过我目前还都能忍受。。。

1 likes

spike76 #3 December 06, 2024

一看就有很多实战经验。

【代码】任何 secret 不能硬编码到代码，小到短信 template_id，大到 jwt_secret，优先放环境变量，其次放数据库

现在的 rails 自带 credentials 管理。大部分 secret 都能放里面，然后用 Rails.application.credentials 获取。

Rei mark as excellent topic. 06 Dec 14:20

528070506 #5 December 06, 2024

总结的很全面，索引确实是不能乱加的，之前做商城的时候，有过很大的并发，当时前辈用 redis 去处理的，方式不是很好，后面离职了也知道后面改没改

easyhappy #6 December 06, 2024

加油

jicheng1014 #7 December 07, 2024

Reply to

martin91

$local_cache = ActiveSupport::Cache::MemoryStore.new

可以划分一块内存，来直接处理

之后默认 cache 是走 redis

但是注意哈，这个内存的缓存只在一个 puma 进程种共用

1 likes

jicheng1014 #8 December 07, 2024

“数据库】发布前一定要检查 migration，大表手动处理”

可以试试这个 gem https://github.com/ankane/strong_migrations

2 likes

xiaoronglv #9 December 08, 2024

千万不要写 Order.find(params[:id]) 这样的代码，只要知道 order_id 任何人都可以访问这个资源，current_user.orders.find(params[:id]) 是最佳方式。

为了防止 Junior Developer 忘记加 scope 导致安全问题，我们现在数据库表的主键 id 都开始用 uuid 或者 type-id 了。这样即使有人犯错误，写了有安全隐患的代码，也不至于被黑客全表扫描数据。

备注：我们现在用的是 PG，没有 cluster index，所以使用 uuid 做主键不会导致太大性能问题。

1 likes

davidgao #10 December 09, 2024

学习到了

huobazi #11 December 09, 2024

这个要赞

1 likes

kevinyu #12 December 09, 2024

学到了，看完就解决一个索引问题

Peter #13 December 12, 2024

Quote: “如果不是经常更新的内容，比如首页的 Banner 和广告这类首页接口，并发量最大，而且更新少”

常更新的也没有问题，设置好过期时间就行了，一小时更新一次，一天也就 24 次，虽然每个 puma 进程都管理自己的 cache，比如说有 8 个 puma 进程，同一个缓存就要重复保存 8 次，那一天也只更新 24*8 = 192 次，但现在内存这么便宜，数据库又放在 ssd 上，不用太在乎。

Rails 官方的文档不建议在生产环境中使用 MemoryStore 是因为多进程或多服务器之间不能共享缓存，另外就是上面说的会浪费内存。理解了原因就可以打破规则了。

我经手的一个生产环境的 k8s 里有十几台 64GB 的 rails 服务器，直接配置的 MemoryStore 作为 Cache, 再用另外的全局变量 redis_client 连接 Redis cluster 用来处理经常变动 (1 小时以下，一般是分钟以下，秒级别) 的缓存，目前运行得非常稳。

对于那种又大又不定期更新的缓存，还希望能在各进程和服务器间同步更新，并且不希望把这么大的缓存存在 redis，也有办法：

例如把 Category.all 保存在 MemoryStore 的 :categories_cache 中，永不过期，另外再把缓存生成的时间保存在 :categories_lazy_updated_at 中，永不过期。
在更新 model 的同时，用 after_save 钩子在 Redis 中更新一个对应的键 categories_redis_updated_at，值就是当下的 timestamp，在各个服务器每个进程中的 MemoryStore 缓存这个 Redis 的键值对，键名 :categories_eager_updated_at，过期时间一分钟或你期望的间隔。
每次读取 :categories_cache 时都比较 :categories_lazy_updated_at 和 :categories_eager_updated_at 的值，这个过程都在本地，时间忽略不计，如果前者小于后者，说明 Category 已经更新了，那重新生成缓存 :category_cache，再把 :categories_lazy_updated_at 的值更新为 categories_eager_updated_at 的值，其实也是categories_redis_updated_at 的值。

这样在 Redis 中只用了一个 timestamp 就在极小的间隔同步了各个进程和各个服务器之间的缓存更新。如果有多个这样的缓存，还可以优化，比如把多个缓存的 timestamps 组成一个 hash 放在 Redis 的一个键中。我最后还做了一个页面，所有的缓存都一目了然，包括值，占用空间大小，过期时间，当然页面中的本地缓存只是某一台服务器中某一个 puma 进程中的值

Rails 的 MemoryStore 效率奇高，因为以前内存贵 HDD 慢，一直在业界没好好利用，我看完源码后觉得现在不在生产环境用真是太浪费了，特别是那些大块头又常年不更新的缓存，现在它们极大概率可以在 garbage collection 中 survive。

3 likes

jicheng1014 #14 December 12, 2024

Reply to

Peter

其实放到内存里也有这么一个原因就是内存比网络快

读 redis 大概率是要跨网络的，会牺牲一定的性能，特别是你遍历数组的时候，每个 item 都要去缓存去拿一个很无聊的数据的时候，网络 io 就是需要考虑的问题了，包括内网

当然其实绝大多数程序来说没啥本质的区别同时用 redis 还有额外的收益原子性

1 likes

wedxt #15 December 13, 2024

非常有用，非常可用于实践中的经验，已分享给团队。

vincent #16 December 19, 2024

感谢 @sidekiq 的分享，我重新找了 2018 年的 slide 文件，发现有一条重要最差实践被你遗忘了，哈哈

Ruby on Rails 的 unique validates 并不是那么可靠，如果有一项数据逻辑上是唯一的，比如 users 的 user_name 或 email，如果没有在数据库层面没有加上唯一约束（MySQL 上是加唯一索引），当并发量高的时候，很容易产生脏数据（数据重复），从而引发一系列麻烦，我们曾经好几次被这个问题搞得痛不欲生。

Ruby on Rails 的 unique validates 不那么可靠的原因：它是在应用层进行验证，它通过查询数据库来检查是否存在相同的记录。如果在高并发的情况下，两个事务几乎同时进行，它们可能都会通过这个验证，因为检查和实际插入数据之间存在时间差，从而导致重复数据的产生。用户量不大，并发不高也可能因为重复点击、重复请求导致问题。

只要为该字段加上数据库层面的唯一约束，问题立即迎刃而解。

2 likes

Peter #17 December 21, 2024

Reply to

vincent

Rails 这边是 unique 的，数据库 migration 那边应该同时加上约束吧。擦皮鞋哪有只擦一只的道理，只擦一只鞋不应该过 Pull request。

有些高并发并且不要求 unique 的情况下，也可能造成数据混乱，比如要求只能一个 worker 处理一个对象的数据，但 workers 从一个任务池拿任务时，有可能多个 workers 先后拿到同一个对象不同的耗时任务，因为这个对象可能前前后后有很多任务，这时候用最简单的 advisory_lock 就可以避免了，可以用对象的 id 做锁的 key。

https://dev.mysql.com/doc/refman/9.1/en/locking-functions.html

任务开始的时候用 IS_FREE_LOCK('#{id}') 查一下，如果 free 就 get_advisory_lock, 最后 ensure 一下 release_advisory_lock

ActiveRecord::Base.connection.get_advisory_lock(id)
ActiveRecord::Base.connection.release_advisory_lock(id)

这样就保证了只有一个 worker 能处理这个耗时任务，其它的 works 拿到这个对象的任务时，要把这个任务放回任务池。

https://apidock.com/rails/ActiveRecord/ConnectionAdapters/AbstractAdapter/get_advisory_lock

You need to Sign in before reply, if you don't have an account, please Sign up first.