瞎扯淡 “如果文件内容不一样，MD5 不可能一样的”

lonre · April 17, 2014 · Last by luxin88 replied at January 24, 2018 · 13647 hits

N 个月之前，我在百度开放云平台上提了几个问题，今天他们回复了我一个。

我的问题是这样的：

看了分片文件上传的文档，有点疑问？1. 如果分片的片段中恰巧有片段内容和其他片段相同，那么合并的文件是否会不完整？2. md5 是有碰撞的可能的，假如内容不同 md5 恰巧相同，那么合并文件是否就有问题？当然这都是比较极端的情况，但是不排除这样的可能，这个地方的设计是否不太合理？

他们的回复：

您好，问题 1：这个需要您切割文件的时候注意即可避免，问题 2：，如果文件内容不一样，MD5 不可能一样的，请您知晓。

请大家感受

Update: 怕误伤了人，改了吧

shiny #0 April 17, 2014

实际上对于海量文件而言，md5 碰撞是经常出现的事情。大概回复的只是客服

lonre #1 April 17, 2014

#1 楼 @shiny 看看他们的介绍 http://developer.baidu.com/feedback 专业回答, 快速回复

mobiwolf #2 April 17, 2014

建议修改为：百度客服

直接用百度好像有点不合适哈

lonre #3 April 17, 2014

#3 楼 @mobiwolf 他们介绍里说：

提出的问题有专业同学进行准确回答，并保证您问题的隐私性！

seamon #4 April 17, 2014

#1 楼 @shiny 有点想当然了吧。呵呵。

md5 摘要值一般最后可以写成 32 个 ascii 字符，以小写字母和数字组成。共有 (26+10)^32 种可能排列。大概是 6.33E49，也就是 6 乘以 10 的 49 次方。你要知道整个宇宙的恒星数量也只不过是 3E23。换句话说，如果每颗恒星都爆发成一个完整的小宇宙，大概就是 md5 的 6E49 量级了。

所以，你到底是有多海量的文件，才能在 10 的 49 次方这个量级里面，遇到“碰撞是经常出现的事情”？

mojidong #5 April 17, 2014

一般会同时比对 md5 和 sha1, 两个同时碰撞你可以去买彩票了亲

badboy #6 April 17, 2014

呵呵，MD5 只是加密串，不是内容压缩。像二维码就是根据内容转换的，能够转回来成文字内容。

如果你把 MD5 当做那啥，内容压缩工具，那就逗了，一部 3D 电影几个 G，转成几十个字符，那太牛了。以后看电影，只需要拷贝那几十个字符，逆转下就成 3D 电影啦。也就是说，MD5 重复是必然滴，它的作用只是用来验证判断内容是否发生过变化。。。

ch3n #7 April 17, 2014

如果只是谈论 md5 的话不同的文件 md5 可以一样，通过某个黑科技可以实现. http://www.mscs.dal.ca/~selinger/md5collision/

night_song #8 April 17, 2014

#5 楼 @seamon md5 可以表示成 32 个 16 进制 数字而不是任意 ascii 字符，排列数约 3.40E38, 但是由于 birthday paradox, 网盘里如果总共有 2.2E19 个文件 (目前应该达不到这么多), 就有 50% 的几率出现 md5 相同的文件，另外由于 md5 hash 长度比较短，人为制造相同的哈希需要的计算量，远比穷举哈希空间需要的计算量少得多，别说 "不可能". 虽然网盘还可以进一步对 md5 相同的文件做内容比较再决定是否合并，但涉及安全的地方别用 md5 是常识才对...

marksloan #9 April 17, 2014

你跟客服谈 MD5 碰撞，实在太为难她们了，她们要是理解这东西早去技术部门了吧。

shiny #10 April 18, 2014

#5 楼 @seamon 呵呵，你没在线上用过吧？我针对用户头像做个 md5 就已经发现大量碰撞了。 talk is cheap,show me the code.

aptx4869 #11 April 18, 2014

#11 楼 @shiny 大量碰撞？？因为用户头像本来就很多重复的吧……

ywjno #12 April 18, 2014

头像内容一样文件的位深度不一样可以算成是同一个文件么？

seamon #13 April 18, 2014

#9 楼 @night_song 多谢。这个是我疏忽了。共 128 位，应该是 16^32 才对。MD5 安全性不强这是肯定的，人工精心构造数据的话，是可以有一定概率发生碰撞的。单纯 MD5 是无法保证安全性的，多种手段结合会更靠谱一些。

seamon #14 April 18, 2014

#11 楼 @shiny 嗯，要不你从发生“大量碰撞”的头像里随便挑几对传上来，我看看是个什么情况。我们还从来没有遇到过 MD5 碰撞的情况，可能是我们数据量太小了吧。一直挺好奇什么样的两个文件会碰撞。

shiny #15 April 18, 2014

#12 楼 @aptx4869 时间有点久了，记得是不一样的，但也不排除这个可能性。

这个命题有点意思，我去找点数据实验下。第三方的帖子也没少见到，比如说上传的是一个文件，下载下来却是另一个文件（当然也有可能是迅雷之类的 bug）。

至于理论，单纯从字符的位数来进行概率分析是比较初级的，不懂理论，希望下面的内容对看客有所启发。 http://wenku.baidu.com/view/5e3e82d649649b6648d747c4

======= @aptx4869 @seamon 对少量文件匹配了下，我觉得很可能是我「妖言惑众」啦，应该是疏忽了，抱歉，「大量」是不可能的，也就不浪费计算力去验证了。虽然有自动生成 md5 一样的程序和文件，都是人为的。不过百度云这样的量级不应该这么不严谨。

seamon #16 April 18, 2014

http://www.win.tue.nl/hashclash/SoftIntCodeSign/

leozwa #17 April 18, 2014

哈哈记得有个作业就是关于 MD5 碰撞的两个 ps 文件一个说请传$20 给我另一个说请传$1,000,000 给我

Unknow user #18 April 18, 2014

我觉得问题一的回答里的问题更严重啊，这种事情切割文件的时候怎么去注意……

lonre #19 April 18, 2014

#19 楼 @dorentus 结论两个：他们既不专业又不快速。

Dropbox 的设计就没有这些显而易见的问题。

luxin88 #20 January 24, 2018

Reply to

seamon

不说文件，随机生成的 128bit 的字符串，也可能发生碰撞，而且概率还很高，我做了个实验，使用 openssl 生成随机数，然后进行 md5，大约 11w 个的时候，就开始碰撞了，还有从 1 开始生成数字，大约 2 千万的时候开始有了第一个碰撞（时间久了，记不太清楚具体多少了，反正肯定在 1 亿之内）

You need to Sign in before reply, if you don't have an account, please Sign up first.