神秘的本福特定律

互联网上有2018年全球230个国家与地区的人口数量信息,请问其中以1开头的数会占多大比例,以9开头的数又占多大比例呢?你很可能回答,各占1/9。但事实却是,以1开头的数占到了约30%,而以9开头的数仅占约5%。若不相信,你不妨亲自验证一番。那么,为何存在如此大的比例差异呢?这背后隐藏着神秘的本福特定律。

本福特定律描述了这样一种现象——对于许多类型的自然发生的数据,数字越小,则其作为首位数出现的频率越高。具体来说,1作为首位数出现的频率约为30.1%,2作为首位数出现的频率约为17.6%,3作为首位数出现的频率约为12.5%,4作为首位数出现的频率约为9.7%,5作为首位数出现的频率约为7.9%……9作为首位数出现的频率约为4.6%。

本福特定律首先被19世纪的天文学家与数学家西蒙·纽科姆发现,但长期被遗忘,直到半个世纪后,就职于通用电器公司的物理学家弗兰克·本福特再次注意到此定律。本福特针对大量数据类型进行了测试——包括各国人口数据与国土面积、河流水量、物理化学常数、财务数据、棒球统计数据,发现此定律广泛适用。那么,该定律的深层机理何在呢?

在1999年的一篇论文中,会计学教授马克·尼格里尼给出一个非常直观的解释:如果将100美元用于购买某种资产,假设资产的年收益率为10%,那么很容易计算出,资产总价值达到200美元大约需要7.3年的时间。换言之,在长达7.3年的时间内,资产总价值在数值上均为100多美元,首位数字均为1。现在再假设经过一些年的增长,资产总价值达到了500美元。此时很容易计算出,资产总价值从500美元增加到600美元大约只需要1.9年。换言之,资产总价值在数值上为500多美元,亦即首位数字为5,大约能维持1.9年。两相比较不难发现,我们观察到首位数字为1的时间长度要比观察到首位数字为5的时间长度更长。具体来说,前者约为后者的3.8倍,而其正好约等于30.1%与7.9%这两个频率的比值。一旦资产总价值越过1000美元,类似的故事再次重演。

根据尼格里尼教授的解释,本福特定律主要适用于呈指数式增长的数据。这类数据的典型特征是,给定相同的增长率,在基数较小的时候,增长幅度长时间徘徊在低位。不过随着基数的增加,增长幅度最后会在短时间内剧烈变大。

既然很多自然发生的数据均满足本福特定律,那么一旦某些数据不满足此定律,我们就有理由怀疑这些数据是否受到人为的操纵,属于非自然发生的数据。这进而意味着,本福特定律可作为识别数据造假的有力武器。一个著名的案例是,2001年,美国最大的能源交易商安然公司宣布破产,当时市场上流传着该公司高管人员涉嫌财务做假的传闻。事后有研究人员发现,该公司在2001年至2002年期间所公布的每股盈利数字就不符合本福特定律。实际上,前面提到的会计学教授尼格里尼的成名绝技就是,他以本福特定律为基础,发明了广泛用于发现会计造假、财务欺诈和逃税行为的“尼格里尼求和法”。