读书笔记:数字分析中的班福定律

关注公众号:奥丁读书小站,看更多读书笔记,书摘和读后感。

【奥丁读书小站】一个专业推荐各种书籍的公众号,推荐的这些书都绝对当得起你书架上的一席之地!总有些书是你一生中不想错过的!

《让数字说话》读书笔记,《让数字说话》书摘,《让数字说话》读后感

这是一个比较违背人的直觉的定律,但越是这样的东西,在检查舞弊时往往越有用。

先说一下什么是班福定律。班福(F.Benford)是20世纪20年代在美国GE工作的一个数学家。他最先发现了这样一个规律:在一个不规则数列里,首位数是1的概率为Lg 2/1,即约为30%;首位数是2的概率为Lg 3/2,即约为18%……以此类推,首位数是9的概率则为Lg 10/9,即约为4.6%。

关于这一定律自然是有一些证明和讨论的,有兴趣的人可以自己查资料。大概说来,它的原理类似这样一个故事:曾经有人做了大量名人的统计来论证作为长子或者长女成为成功人士的概率超过40%,而次子或次女成为成功人士的概率就只有20%多。于是有人从营养学、胎教、心理学等多个角度论述这一结果的原因。我还曾经拿这一论点在我弟弟面前显摆过,好像自己口袋里装了很多钱似的。后来有人指出,这根本就是一个无聊的统计。如果一个家庭有一个孩子,这个孩子必然是长子或者长女;当一个家庭有两个孩子,这个家庭里才既有长子或者长女,也有次子或者次女。所以,人类当中,是长子或者长女的概率就超过了其他的几种情况。在这样的情况下,如果长子或者长女成功的概率还和别的情况的概率一样,就只能反向证明长子或者长女的平均智力低下,幸好不是这样的统计结果。

同样,在我们平时接触的数据里,虽然理论上说大小没有限制,但实际上,总是有一定限制的。例如,一家企业的费用报销金额,一般不会超过其当年的收入数字。考虑到其收入增长的速率一般不超过30%,其费用报销金额一般也不会超过去年销售收入的130%。既然这样,在我们平时接触的数据里,其首位数字是“1”的可能性就会大一些。试想想看,假如一组数据的大小一般不超过25000,那么,从1到9999这一区间,首位数是“1”“2”……“9”的可能性是一样的,但从10000到19999,首位数全是“1”,而从20000到25000,首位数都是“2”。显然,首位数字是“1”和“2”的概率就比首位数字是其他数字的概率要大了。

当然,关于这一定律,有更详细的论证,我们就不多谈了。当我看到这一定律的时候,最让我震惊的,是我想到的它的实际应用的广泛性和有效性。

我们凭借常识很容易知道,一个企业的财务数字里,不应该有太多的整数,不应该有太多的“10、15、25……”这些我们知道,很多造假舞弊者也知道。于是,造假舞弊者就尽量避开这些陷阱。现在,我们还知道了这个班福定律。而这个定律是如此有效,以至于即使造假舞弊者知道这一定律,他也很难以一种有效的手段来避开这一陷阱。