用一个最简单,又能充分体现二者区别的例子来说明,数学公式和图表都不会,所以解释效果可能不好 。而且我不保证我说得对 ,可能需要后续改动
首先他们都是针对一个未知量 X,求一个 X 可取的常数值,来最大化一个函数argmax(function () {})
如果我们手里有一个硬币,它是个 fair coin,还是一个 biased coin,heads(H)/tails(T) 是 50/50 还是 30/70,这是我们感兴趣的未知量,这个未知量可以取的确定值是一个概率分布,50/50,30/70 这都是概率分布
频度派的观点是这个未知量是一个 unknown constant,bayesian 的观点是这是个 random variable。
MLE 里的 L 是 likelihood,当条件概率 P(A|B) 中,B 取确定常数值,A 不确定,P(A|B) 称为概率;当 A 取常数值,B 不确定 P(A|B) 称为 likelihood
假设抛了 n 次硬币,HHH 全是 H,对 MLE 来说 Likelihood = P(HHH|X), 要找个 X = 常数值来最大化这个函数 P,显然 X = 100/0能最大化它,频度派的做法就认定了100/0是我们未知的constant
bayesian 的随机变量的观点是,这次你打开篮子里是个香蕉,过 5 分钟再打开可能是个苹果
bayesian 要最大化的函数是 P(X|HHH), 我们称 P(X), 也就是没有任何抛掷数据前的 X 取各个值的概率函数,为 prior, 我们要最大化的是 posteriori,也就是 MAP 里的 P 了。所以 bayes 是有一个先验假设的,会根据后续的去更新假设,posteriori 是更新后,prior 是更新前。
抛硬币这个例子里,怎么决定 prior?不知道,但这不妨碍我们理解 MLE 和 MAP 的区别。就假设 prior:P(X: 50/50) = 1/3, P(X: 70/30) = 1/3, P(X: 100/0) = 1/3
因为抛出了 HHH 所以更新后的 posteriori 里 P(X: 100/0)一定是最大的,所以这里最大化P(X|HHH)还是100/0
那区别在哪里?
这里用了最简单最容易分析的 X“我们感兴趣的未知量”, 我觉得对于解决问题来讲,如何选取这个未知量直接关系到问题的解决
比如你有个火星探测车,火星在刮沙尘暴,你的感知器传给你探测车的坐标读数(不准,有噪音),你知道探测车的位置直觉上是个 unknown constant,为了知道真实的位置,这里合适的解决办法是 MLE 吗?现实中解决这个问题的办法是基于 Bayes 和 MAP 的 Kalman Filter, 选取的 X 也不是“探测车的精确位置”。