新手问题如何取出一个字段 (不重复数据的 TOP10)?

xufeng · 2012年06月17日 · 最后由 hooopo 回复于 2012年06月17日 · 3561 次阅读

有这样一个字段，里面有很多 URL 地址，这些 URL 地址很多都是一样的，我想知道这些 URL 不重复的 TOP 数据？

请问如何查询啊？

fresh_fish #0 2012年06月17日

xufeng #1 2012年06月17日

#1 楼 @fresh_fish 数据量非常大，大约 1000 万以上条数据。楼上那个帖子没有数据叠加的问题！请求 DEMO

zhangyuan #2 2012年06月17日

这么多数据，是不是要 map-reduce 了？

Rei #3 2012年06月17日

我会先用最简单的方法，遍历数组存到哈希。

如果 Ruby 实现的遍历和排序太慢，我就先插入 mongodb 再排序。

clearJiang #4 2012年06月17日

子查询吧

select * from (select count(*) as counter,url  from table group by url) c order by c.counter desc limit 10

不过这种东西设计的时候不做成 counter_cache，效率高不了啊

hooopo #5 2012年06月17日

如果你要问就目前你说的这样的场景如何排序我想不出不需要进行 Filesort 的方法。

如果重新设计一下可以这样： 1.添加一个 url_count 字段，加索引。 2.插入之前先查询，如果存在就 url_count + 1。 3.select * from urls order by url_count desc limit 10

查询的时候： select id from urls where url="xx" and url_crc=CRC32("xx"); url_crc 列也要加索引。

需要登录后方可回复, 如果你还没有账号请注册新账号

新手问题 如何取出一个字段 (不重复数据的 TOP10)?