分享如何实现一个信息架构友好的标签系统

hooopo · 2020年10月14日 · 最后由 363676727 回复于 2021年08月06日 · 7494 次阅读

本帖已被管理员设置为精华贴

信息架构设计是对信息进行结构、组织方式以及归类的设计，好让使用者与用户容易使用与理解的一项艺术与科学。信息架构是内容性网站的基石，包括组织系统，标签系统，导航系统，搜索系统，推荐系统等。下面来谈谈标签系统的信息架构设计。

优选术语和同义词环

举个简单的例子，一个大众标签网站，任何人可以对网页打标签，任何人可以搜索和通过标签过滤网页。这个问题看似很简单，但实现起来并不容易，因为不同用户对标签术语的选择并不相同，比如拿「开源软件」这个标签来说，可选术语包括：opensource、Open Source、OSS、开源、开源项目、开源软件、open source software等。

而我们的需求是，即使不同人使用的术语不同，用户在使用标签过滤或搜索的时候，使用其中任意一个术语，就可以找到相关的网页。

这类需求就要引入信息架构里的同义词环圈（synonym ring）和优选术语（preferred terms）的概念。

下面来简单的写一下使用 Postgres 实现这样的标签系统的方法：

表结构：

# tagging

## bookmarks

name                          | column_type | ext_info                  | ref | default | comment
----------------------------- | ----------- | ------------------------- | --- | ------- | -------
id                            | integer     | [pk, increment, not null] |     |         |        
url                           | integer     | [null]                    |     |         |        
title                         | integer     | [null]                    |     |         |        
user_id                       | integer     | [null]                    |     |         |        
cached_tag_names              | varchar     | [null]                    |     |         |        
cached_tag_ids                | int[]       | [not null]                |     | {}      |        
cached_tag_with_aliases_ids   | int[]       | [not null]                |     |         |        
cached_tag_with_aliases_names | varchar     | [null]                    |     |         |        

## tags

name         | column_type | ext_info                  | ref              | default | comment
------------ | ----------- | ------------------------- | ---------------- | ------- | -------
id           | integer     | [pk, increment, not null] |                  |         |        
name         | varchar     | [null]                    |                  |         |        
preferred_id | integer     | [null]                    | [tags.id](#tags) |         |        
auto_extract | boolean     | [not null]                |                  |         |        

## taggings

name        | column_type | ext_info | ref                        | default | comment
----------- | ----------- | -------- | -------------------------- | ------- | -------
id          | integer     | [null]   |                            |         |        
tag_id      | integer     | [null]   | [tags.id](#tags)           |         |        
bookmark_id | integer     | [null]   | [bookmarks.id](#bookmarks) |         |

ERD:

Ruby:

def sync_cached_tag_ids
    last_tags = tags.preload(:aliases).reload
    update(
      cached_tag_with_aliases_ids: last_tags.map { |t| [t, t.aliases.to_a] }.flatten.map(&:id).uniq,
      cached_tag_with_aliases_names: last_tags.map { |t| [t, t.aliases.to_a] }.flatten.map(&:name).uniq.join(", "),
      cached_tag_ids: last_tags.map(&:id),
      cached_tag_names: last_tags.map(&:name).join(", ")
    )
  end

原理就是每次 tagging model 有更新的时候，把 aliases ids 和 names 一起同步到缓存字段里。过滤的时候使用 Postgres 的数组&&操作符：

def self.tag_filter(scope, tag_name)
  tag = Tag.find_by!(name: tag_name)
  tag_ids = tag.self_with_aliases_ids
  scope.where("cached_tag_with_aliases_ids && ?", Util.to_pg_array(tag_ids))
end

再加个 GIN index：

add_index :bookmarks, :cached_tag_with_aliases_ids, using: :gin

后台管理优选术语和同义词环

后台 Admin 管理同义词标签：

还可以增强的一个功能是，可以基于文本相似和协同过滤的方式，把可能是同义词的标签列出来，便于管理员管理。

标签自动提取

标签自动提取非常有意思，目前使用基于白名单的方案，如果网页上有和已有标签匹配上的内容，我们就打上标签。不过也需要参考词频和权重，还有黑名单。比如像 HTML，HTTP，HTTPS 这些常见的词，打上标签没有任何意义。这个过程和全文检索是一个相反的过程，拿文档去匹配关键词，然后按相关度打分取 TopN。

class ExtractTag
  prepend SimpleCommand
  include ActiveModel::Validations

  attr_reader :bookmark

  def initialize(bookmark)
    @bookmark = bookmark
  end

  def call
    tags = Tag.find_by_sql(<<~SQL)
      SELECT DISTINCT 
             tags.*, 
             bookmarks.tsv <=> plainto_tsquery('zh', name) AS rev_score
        FROM bookmarks, tags 
       WHERE bookmarks.id = #{bookmark.id} 
             AND plainto_tsquery('zh', tags.name) @@ bookmarks.tsv
             AND tags.name not IN (#{Util.stop_words_for_where})
             AND length(tags.name) >= 3
             AND tags.auto_extract = 't'
    ORDER BY rev_score ASC
       LIMIT 10
    SQL
    tags = tags.map(&:preferred_or_self)
    tags = tags.group_by do |tag|
      tag.name.downcase.gsub(/-\s/, "")
    end.map { |name, records| records.sort_by { |record| record.preferred_id || 0 }[0] }
    tags.flatten.uniq[0, 3]
  end
end

基于标签的推荐

如果标签打的很准确，基于标签的相似效果其实也会很好，效果并不一定比协同过滤或文本相似度差。下面实现一个基于标签的相似推荐，使用 RUM 索引：

CREATE INDEX idx_similar_by_tag ON bookmarks USING rum (cached_tag_with_aliases_ids rum_anyarray_ops)

测试一下效率还是非常高的，对于没有标签的网页，使用文本相似度，即：使用标题去做全文检索，不过是 OR 规则的匹配。

class SimilarByTag
  prepend SimpleCommand
  include ActiveModel::Validations

  attr_reader :bookmark, :limit

  def initialize(bookmark, limit = 6)
    @bookmark = bookmark
    @limit    = limit
  end

  def call
    pg_ids = Util.to_pg_array(bookmark.cached_tag_with_aliases_ids)
    return Bookmark
      .original
      .where("cached_tag_with_aliases_ids && ?", pg_ids)
      .where.not(id: bookmark.id)
      .order("cached_tag_with_aliases_ids <=> '#{pg_ids}'")
      .limit(limit) if bookmark.cached_tag_with_aliases_ids.present?

    return Bookmark
      .original
      .where("bookmarks.tsv @@ replace(plainto_tsquery('zh', E'#{Util.escape_quote bookmark.title}')::text, '&', '|')::tsquery")
      .where.not(id: bookmark.id)
      .select("bookmarks.*, bookmarks.tsv <=> replace(plainto_tsquery('zh', E'#{Util.escape_quote bookmark.title}')::text, '&', '|')::tsquery AS relevance")
      .order("relevance ASC")
      .limit(limit) if bookmark.title.present?
    []
  end
end

效果

网站：https://hackershare.dev
完整源码：https://github.com/hackershare/hackershare

72 个赞

novtopro #0 2020年10月14日

Rei 将本帖设为了精华贴。 10月14日 21:18

pinewong #2 2020年10月15日

硬核

nyrf #3 2020年10月15日

请问下 PostgreSQL 中文全文检索用的是哪个插件？

PS：看源码看到了，zhparser

huacnlee #4 2020年10月15日

你这样，似乎 taggings 表没用处了

早期我做电影网站的时候，在 MongoDB 里面也做过类似这样的 Tag 存储方式，不过我是直接把 Tag 名称到业务表字段里面

现在回头看，直接存储 tag_name 似乎有些不妥，应该转成 tag_id 来存的

bookmark.countries = %w[中国 美国]

https://github.com/huacnlee/mongoid_taggable_on

gakki #5 2020年10月15日

好文章，已支持！

hooopo #6 2020年10月15日

对

huacnlee 回复

中间表还是有用的，一个很有用的原则就是先满足范式再冗余。如果直接去掉业务有新需求的时候弄不好还得加回去，比如：

验证 bookmark 和 tag 组合唯一性
记录标记人
记录标记时间
自定义标记顺序
修改标签名

还有一个好处可能就是有了中间表，两边做 counter cache 方便一些

2 个赞

hooopo #7 2020年10月15日

对

gakki 回复

感谢

wych42 #8 2020年10月15日

有种感觉：ruby+postgresql 就是魔法 + 魔法。打算学习一波。

hooopo #9 2020年10月15日

对

wych42 回复

欢迎加入魔法师

1 个赞

lihuazhang #10 2020年10月15日

这个可以搞一个 gem 出来么。。

Sylor-huang #11 2020年10月15日

我转载了下，如果不合适转载的话，麻烦您和我说下哈，我就删掉。 https://www.udask.net/articles/23

hooopo #12 2020年10月15日

对

Sylor-huang 回复

可以的

hooopo #13 2020年10月15日

对

lihuazhang 回复

应该可以，不过最近没时间啊

1 个赞

griffinqiu #14 2020年10月15日

正需要做这个，抄袭了。

eux #15 2020年10月15日

写得好，学习了

tags = tags.map(&:preferred_or_self)
tags = tags.group_by do |tag|
  tag.name.downcase.gsub(/-\s/, "")
end.map { |name, records| records.sort_by { |record| record.preferred_id || 0 }[0] }
tags.flatten.uniq[0, 3]

想讨论下这一小段代码，第一眼看上去不是那么好读，想了下要怎么优化，尝试修改如下：

tags.map(&:preferred_or_self)
    .group_by(&method(:clean_name))
    .values
    .flat_map(&method(:min_by_preferred_id))
    .uniq[0, 3]

private

def clean_name(tag)
  tag.name.downcase.gsub(/-\s/, "")
end

def min_by_preferred_id(tags)
  tags.min_by { |tag| tag.preferred_id || 0 }
end