简单统计学

“无论文,不生存”是大学生活中的一个残酷现实。

不管是在哪里,研究人员都在追逐统计显著性,而这并不是一个难以寻觅的目标。在高速计算机和大量数据的帮助下,寻找统计显著性是一件很容易的事情。如果你观察得足够仔细,你甚至可以在随机数据表格中发现统计显著性。

成千上万的研究人员对无数理论进行检验,将那些具有统计显著性的结果记录下来,并将其他结果扔到一边。

制药公司会对数千种实验性药物进行检验。即使在设计良好的无偏研究中,我们也会发现数百种毫无价值的药物表现出具有统计显著性的效果——而这又可以带来巨大的利润。

选择性报告和数据搜刮——被称为数据挖掘。通过数据挖掘发现的统计显著性只能体现出研究人员的耐心。

我们常常听人说,大学毕业生的工资高于高中毕业生,似乎人们观察到的工资差异可以衡量上大学的财务回报。不过,大学毕业生之所以工资比较高,部分原因在于他们比不上大学的人更聪明,更有抱负。实际上,做出不同选择的人本身可能就是不同的。

爱德华·R.默罗(Edward R. Murrow)曾说过:“电视的主要用途是欺骗和孤立我们,转移我们的注意力,逗我们开心。”这是 1958 年的事情,那是所谓的“电视黄金时代”。时至今日,情况并没有任何好转。

老年人的历史医疗记录中排除了没有活到老年的个体。公司财务历史记录中排除了已经破产的公司。

如果有人告诉我们,参与竞争性体育运动的孩子非常自信,我们不应该认为竞争性体育运动可以增强自信。也许,自信的孩子喜欢参与竞争性运动。

我们还应当考虑到我们没有看到的事情——离职的员工、没有返航的飞机、失败的公司。我们没有看到的数据可能和我们看到的数据一样重要,甚至更加重要。

拥有梦想和抱负是好的,但是认清现实更加重要。

由于立体像素数量众多,因此出现了一些假阳性,可以被解释成三文鱼对照片和问题的反应。只是这条三文鱼已经没有了生命。

贝内特和他的教授艾比盖尔·贝尔德(Abigail Baird)提出了一个有力的观点:功能磁共振成像研究需要考虑到假阳性问题。多达 40% 的已发表论文并没有做到这一点。

假阳性问题不是由于太困难而解决不了,因为大部分数据分析软件中都集成了相关功能。根本原因还是研究人员们不愿意用严格的统计方法来“损害”自己辛苦获得的数据。

最重要的一点是,我们应当永远牢记,一项研究的结论有可能受到混杂因素的干扰。

辛普森悖论指的是当聚合数据被分解时其中的模式发生逆转的现象。

做出最佳飞行表现的学员通常不具有他们表现出来的那种远高于平均水平的能力。平均来说,不管教官表扬他们,叱责他们,还是一言不发,他们都不会在下次飞行中做出同样好的表现。

平均来说,飞行表现最为糟糕的学员并没有看上去那么无能;如果教官能够控制住自己的吼叫,这些学员可以在下次飞行中做出更好的表现。

卡尼曼写道:由于我们倾向于在其他人表现出色时奖励他们,在其他人表现糟糕时惩罚他们,又由于均值回归现象,因此从统计上看,我们将由于奖励别人而受到惩罚,由于惩罚别人而受到奖励,这是人类社会的一个组成部分。

排除异常值有时会产生误导作用,不排除异常数据则几乎一定会产生误导作用。

对于任何理论,只要考察大量数据,并且丢弃不支持这种理论的数据,那么你一定能够收集到支持这种理论的证据。

自杀的人显然认为他们的生命极其压抑而且毫无希望,因此做出了停止生存这个不可逆转的决定。

自杀往往在春天和初夏更加常见。

尼克松由于肮脏而有些古怪的竞选策略而被长期称为“狡猾的迪克”,Tricky Dick。

如果我们仅仅根据过去的趋势推测未来,而不去考虑这种趋势是否有意义,那么我们的结论可能会与众所周知的真相相去甚远。

如果 IBM 继续以每年 16% 的速度增长,整个美国的经济继续以 3% 的长期速度增长,到 2003 年,美国的一半产出将是 IBM 的产品,到 2008 年,美国的全部产出将由 IBM 提供。

有一个行业专门通过测量投资者的情绪预测股票价格,这个行业叫做技术分析。

一项又一项的研究发现,虽然技术分析拥有这些吸引人的标签,但它几乎没有任何价值——除了雇用技术分析师以及为股票经纪人带来佣金。

1720 年春天,艾萨克·牛顿爵士(Sir Isaac Newton)说:“我能计算天体的运动,但我无法计算人类的疯狂”。

英国议会成员詹姆斯·米尔纳(James Milner)在南海泡沫中破产,他悲叹道:“我说,的确,我们一定很快就会遇到灭顶之灾,但是……它比我的预测早来了两个月。”

无所事事总比做一些愚蠢的事情要好。

长期资本管理公司破产以后,梅里韦瑟和公司的其他许多合作伙伴根据几乎相同的策略创办了新的基金。大多数基金公司在 2007~2009 年的金融危机期间破产,其原因往往与长期资本管理公司失败的原因相同。没关系。梅里韦瑟迅速创办了另一家基金公司。

不要把资金押在历史模式以及几乎没有合理解释的关系上。

当阿尔伯特·爱因斯坦被问及他所了解的最重要的概念时,他立即给出了“复利”这个答案。不是统计力学。不是量子理论。不是相对论。是复利。

在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求。

在如今的信息时代,我们用没完没了而又毫无意义的数据指导我们的思想和行动。不难看出为什么我们会反复得出错误的推论,制定糟糕的决策。

罗纳德·科斯(Ronald Coase)曾经嘲讽道:“如果你对数据拷打足够长的时间,它一定会招供。”

其他人用数据欺骗我们,我们也经常用数据欺骗自己。

保罗选择的并不是最佳足球队,而是它最喜欢的国旗。说到底,“无所不知的保罗”只是一只缺乏智商的章鱼而已。

计算机可以对海量数据进行筛选。问题不再是我们没有足够的数据,而是我们眼前的数据对我们产生了误导。

桦尺蠖大部分时间生活在树上,它们通常是浅色的,这种颜色可以帮助它们躲避鸟儿的捕食。1848 年,英国发现了第一只深色桦尺蠖。到了 1895 年,曼彻斯特 98% 的桦尺蠖都是深色的。

我们很容易被模式以及解释模式的理论所引诱。

我们紧盯着支持这种理论的数据,忽视与之相矛盾的证据。我们相信这些故事,因为它们与我们观察到的模式相符。一旦我们接受了这些故事,我们就很难放弃它们了。

我们渴望使不确定的世界变得更加确定,渴望控制我们无法控制的事物,渴望预测那些无法预测的现象。

秩序比混乱更加令人舒适。

我们很容易受到各种统计性骗局的蒙蔽。当人们用毫无意义的模式来证明政府政策的后果、营销计划的不凡影响、投资策略的成功或者保健品的效果时,我们很容易认为这些模式是有意义的。由于我们在内心深处希望理解这个世界,因此我们形成了这种声名狼藉的、很难摆脱的弱点。

在残酷的学术研究领域,聪明好胜的科学家一直在追求名誉和资助,以维持他们的事业。这种必要的支持是由他们在同行评议期刊中发表的成果决定的。

“无论文,不生存”是大学生活中的一个残酷现实。

研究人员有时会对实验数据做手脚。毕竟,如果你相信你的理论是正确的,那么编造出证明这种理论的数据又有什么关系呢?

一些人试图复制韦克菲尔德的结果,但他们并没有发现自闭症和麻腮风疫苗之间的任何关系。

伦敦《星期日泰晤士报》记者布赖恩·迪尔(Brian Deer)在 2004 年进行了一项调查,在韦克菲尔德的研究中发现了一些可疑的反常之处。韦克菲尔德的研究似乎得到了一些律师的资助,这些律师希望接到针对医生和制药公司的利润丰厚的人身伤害诉讼。

韦克菲尔德这篇论文的大多数共同作者很快撇清了自己与文章的关系。《柳叶刀》2010 年撤销了这篇论文,并表示,“论文中的说法显然是完全错误的,这是一件毫无疑问的事情。”

在一篇论文中,斯塔佩尔声称,凌乱的房间会加剧人们的种族主义倾向。在另一篇论文中,斯塔佩尔认为吃肉——甚至仅仅是考虑吃肉——会使人变得更加自私。斯塔佩尔拒绝向他们展示调查数据。很快,斯塔佩尔承认,他的许多调查结果要么进行了篡改,要么完全是编造的。他解释说:“我想以很快的速度做出许多成果。”

利维承认了自己的行为,并且辞去了职务。后来,他解释说,为了发表论文,他面临着很大的压力。

一项针对心理学期刊的研究发现,在所有得到发表的检验结果中,97% 的结果具有统计显著性。当然,在研究人员进行的所有检验中,具有统计显著性的检验比例不会达到 97%。之所以出现上述结果,是因为编辑通常认为不具有统计显著性的检验没有发表的价值。

不管是在哪里,研究人员都在追逐统计显著性,而这并不是一个难以寻觅的目标。在高速计算机和大量数据的帮助下,寻找统计显著性是一件很容易的事情。如果你观察得足够仔细,你甚至可以在随机数据表格中发现统计显著性。

寻找统计显著性的一种方法是对多种理论进行检验,然后只宣布具有统计显著性的结果。即使只考虑毫无价值的理论,也会有 1/20 的检验表现出统计显著性。在海量数据和高速计算机的帮助下,在生成“可发表结果”的巨大压力下,无数毫无价值的理论得到了检验。

成千上万的研究人员对无数理论进行检验,将那些具有统计显著性的结果记录下来,并将其他结果扔到一边。对于社会公众来说,我们只能看到这些统计工作的冰山一角。我们只能看到具有统计显著性的结果,看不到不具有统计显著性的结果。

如果我们知道这些得到公布的检验背后隐藏着数百项没有得到公布的检验,而且知道对毫无价值的理论进行的检验中平均有 1/20 的检验能够得到统计显著性,我们一定会抱着更加怀疑的态度看待这些得到公布的结果。

制药公司会对数千种实验性药物进行检验。即使在设计良好的无偏研究中,我们也会发现数百种毫无价值的药物表现出具有统计显著性的效果——而这又可以带来巨大的利润。

制药商很喜欢对更多的新药进行检验。不过,他们并不喜欢对得到批准的疗法进行重新检验,以查看最初的结果是否仅仅是一种巧合,是否属于 1/20 碰巧具有统计显著性的毫无价值的疗法。

约翰·约安尼季斯(John Ioannidis)在希腊约阿尼纳大学、马萨诸塞州塔夫斯大学医学院以及加利福尼亚州斯坦福大学医学院任职。在整个职业生涯中,约安尼季斯一直在警告医生和公众不要轻易接受没有以令人信服的方式得到重复的医学检验结果。

在一项研究中,他考察了从 1990 年到 2003 年的 45 项备受尊重的医学研究,这些研究自称证明了对于各种疾病的有效疗法。其中,只有 34 项实验被人用规模更大的样本进行了检验,以复制初始检验结果。在这 34 项研究中,只有 20 项研究证实了初始结果(59%)。

如果我们知道研究人员在公布结果之前以一百种不同的方式对数据进行了考察,我们一定会抱着怀疑的态度看待这些结果。

选择性报告和数据搜刮——被称为数据挖掘。通过数据挖掘发现的统计显著性只能体现出研究人员的耐心。

在独立检验证实或拒绝结论之前,我们无法判断某种数据挖掘马拉松到底证明了某种实用理论的有效性还是研究人员坚定的毅力。不过,通常情况下,这类检验并不会被人验证。

你无法通过证实他人的研究而成为明星;所以,为什么不把时间用于发现新理论呢?因此,通过数据挖掘得出的理论看上去很安全,既不会受到检验,也不会受到质疑。

在这个年代,常识是一种稀缺品,许多诚实的研究人员用严肃的语气提出了一些愚蠢的理论。

作为巴贝奇的第一项设计,这台由铜和铁制造、由蒸汽驱动的庞然大物高达 2.4 米,重达 15 吨,包含 2.5 万个不同部件,被称为“差分机”。

“分析机”有一个高达 4.5 米、直径为 1.8 米的圆柱形“工厂”,可以执行一个 7.5 米长的“存储器”发送的指令。这个“存储器”相当于现代计算机的内存,“工厂”相当于现代 CPU。

“输入垃圾,输出垃圾”的另一个版本叫做“输入垃圾,输出福音”

当数据涉及人们的选择时(比如当人们选择上大学、结婚或者要孩子时),就会出现“自选择偏差”。在这种情况下,对于做出不同选择的人进行比较的做法是靠不住的。

我们常常听人说,大学毕业生的工资高于高中毕业生,似乎人们观察到的工资差异可以衡量上大学的财务回报。不过,大学毕业生之所以工资比较高,部分原因在于他们比不上大学的人更聪明,更有抱负。实际上,做出不同选择的人本身可能就是不同的。

在一项实验性学前教育计划中,人们根据抛硬币的结果决定是否允许家庭社会经济地位不高的黑人孩子进入学前班。这项研究发现,上过学前班的学生高中毕业和找到工作的可能性较高,被逮捕的可能性较低。这项实验证明了学前教育的价值,尽管它对输掉硬币游戏的孩子来说似乎有些残酷。

2012 年,东密歇根大学错误地向 7700 名学生(学生总数的三分之一)发送了电子邮件,称他们遭到了学校的开除。校长为这个“不可原谅的错误”道了歉。

“大学毕业生的平均工资比大学辍学生高出 54%,所以学位看上去显然具有经济意义。”这又是一种自选择偏差!选择上大学并通过努力学习获得学位的学生显然与大学辍学生存在系统性差异。

爱德华·R.默罗(Edward R. Murrow)曾说过:“电视的主要用途是欺骗和孤立我们,转移我们的注意力,逗我们开心。”这是 1958 年的事情,那是所谓的“电视黄金时代”。时至今日,情况并没有任何好转。

看电视会使人的脑电波从敏捷而符合逻辑的贝塔波转变成放松而发散的阿尔法波。

选择整天看电视的人更加安静,更加抑郁,或者健康状况不是很理想。

一家航空公司曾经打出这样的广告:在经常从纽约前往芝加哥的商业旅行者中,84% 的人更喜欢这家航空公司,而不是另一家航空公司。这个广告令人困惑的地方在于,在从纽约飞往芝加哥的旅行者中,只有 8% 的人选择这家航空公司。

回溯性研究往往存在幸存者偏差。也就是说,当我们选择现在的样本并回顾过去时,我们只能看到幸存者。老年人的历史医疗记录中排除了没有活到老年的个体。公司财务历史记录中排除了已经破产的公司。

健康维护组织在一项调查中发现,超过 90% 的成员对该组织感到满意。这里存在两种幸存者偏差,它们都在推高调查的满意度:一些人由于不满意而退出了这项计划,还有一些人离开了人世。

红狮酒店曾经打出占据整整一个版面的广告:“在曾经入住红狮的商务旅行者中,98% 的旅行者还会再次选择我们。”原来,该公司对酒店里的顾客进行了一项调查,其中 98% 的人表示“他们在旅行时通常会选择红狮酒店”。显然,只住过一次红狮酒店的人并没有被这项调查包括在内。

有人对纽约市兽医院接收的从高层公寓楼坠落的 115 只猫咪进行了调查,发现从 9 层以及上楼层坠落的猫咪的死亡率为 5%,从不足 9 层的楼层坠落的猫咪的死亡率为 10%。

坠落后死亡的猫咪不会被送到医院。而且,许多猫主会放弃那些从高层坠落后奄奄一息的猫咪,而从较低楼层坠落的猫咪的主人往往更加乐观,更愿意花钱带它们去医院。

返航飞机的驾驶舱和油箱之所以很少出现弹孔,是因为这些部位被击中的飞机无法存活下来并返回英国。返航飞机在机翼上出现弹孔的可能性更大,因为这些弹孔的伤害很小。

瓦尔德的建议与最初的结论完全相反:他们应当加固没有弹孔的位置,而不是弹孔最多的位置。

我们会观察人们的工作、游戏和生活,而且我们会自然而然地根据我们看到的现象得出结论。我们的结论可能会失真,因为这些人所做的事情是他们自己选择的。我们观察到的特点可能并非源于活动,而是反映了选择这种活动的人的个性。

如果有人告诉我们,参与竞争性体育运动的孩子非常自信,我们不应该认为竞争性体育运动可以增强自信。也许,自信的孩子喜欢参与竞争性运动。

如果有人告诉我们,华尔街的工作人员很有进取心,我们不应该认为华尔街可以培养进取心。也许,华尔街容易吸引具有进取心的人。

我们还应当考虑到我们没有看到的事情——离职的员工、没有返航的飞机、失败的公司。我们没有看到的数据可能和我们看到的数据一样重要,甚至更加重要。

也许,患者之所以表示病情出现了好转,是因为他们认为自己应当感觉到病情的好转。永远不要低估暗示的力量。

同接受假关节镜手术的对照组相比,真正接受关节镜手术的患者在任何时刻都没有感受到更少的疼痛,或者表现出更好的功能。显然,病人声称的疼痛缓解完全来自安慰剂效应(人们相信医学的力量,希望看到治疗方法带来积极的效果,即使这种治疗方法没有任何医学价值)。

一名被控在 30 公里外犯下谋杀案的男子在韦尔弗里特警察局自首,这个案件被错误地统计成了发生在韦尔弗里特的谋杀案。韦尔弗里特只有 2491 名居民,因此一项被错误统计的案件变成了每十万名居民中的 40 起谋杀案。相比之下,波士顿发生了 98 起谋杀案,相当于每十万名居民中发生 17 起谋杀案。

当任何两样事物随时间增长时,它们之间可能没有任何因果关系,但它们仍然具有统计相关性。

1960-1985年美国的啤酒销量和已婚人口的数量。二者的相关性达到了惊人的 0.99。面对这种强烈的相关性,我们能否认为饮酒会导致婚姻?或者倒过来,我们能否认为婚姻会导致饮酒?

公司出钱要求咨询师证明一些事情。当咨询师发现某种表面上的证据时,他们就会死死抓住这种证据不放。

我们高估了自己的预测能力。如果我们的预测是正确的,这将证实我们的确是聪明人。如果我们预测失败,这仅仅是运气不好而已——裁判不公、投票率不高、其他投资者不理性。

每一个优秀的魔术师都知道,要想骗过观众,关键在于转移观众的注意力。

比较是实证研究的生命线。在与某种替代方案进行比较之前,我们无法确定某种药物、疗法、政策或策略的有效性。

计算机可以迅速而正确地完成计算任务,但它不会考虑这些计算的意义和合理性。计算机只会做人们要求它去做的事情。

美国债务与 GDP 的比例只在四年时间里超过 90%。美国经济在这四年里出现了萎缩,但那是非常特殊的年份:1946~1949 年,正好是二战结束以后。政府债务之所以异常偏高,是因为政府为了支持战争而大量借贷。战后的衰退是由政府军事开支的下降引起的,不是由战争期间积累的债务导致的。显然,我们不应该认为这四年证明了政府债务会导致衰退。相反,这四年实际上证明了财政强硬派倡导的大幅削减政府开支的做法会导致衰退。

马萨诸塞大学安姆斯特分校研究生托马斯·赫恩登(Thomas Herndon)2012 年选修了一门由迈克尔·阿什(Michael Ash)和罗伯特·波林(Robert Pollin)教授的研究生统计课程,他的一项课程作业是复制一篇著名的研究论文。赫恩登选择了莱因哈特和罗戈夫的论文。他付出了大量努力,但他无法复制他们的结果。

当莱因哈特和罗戈夫编写带有电子表格编码的计算公式时,他们没有使用 30 至 49 行,而是使用了 30 至 44 行,因此他们忽略了五个国家(澳大利亚、奥地利、比利时、加拿大和丹麦)。其中,三个国家(奥地利、比利时和加拿大)拥有债务与 GDP 之比大于 90% 的时间段;在这些年份里,三个国家的增长率都是正值。这三个与论文结论相反的例子都被排除在了莱因哈特和罗戈夫的计算之外。

新西兰的数据尤其重要,因为被忽略的四年是债务与 GDP 之比超过 90% 的五年中的四年(1951 年是第五年)。在这五年里,新西兰的 GDP 增长率分别是 7.7%、11.9%、-9.9%、10.8% 和-7.6%,平均增长率是 2.6%。莱因哈特和罗戈夫排除了前四年的数据,称新西兰高债务年份的平均增长率是-7.6%。

莱因哈特和罗戈夫计算了每个国家的平均增长率,然后计算这些国家增长率的平均值。例如,英国有 19 年债务与 GDP 之比超过 90%,在这 19 年里,其平均 GDP 增长率为 2.4%;由于新西兰被忽略了四年,因此它只有一年债务与 GDP 之比超过 90%,在这一年,其 GDP 增长率是-7.6%。根据 20 个年度观测值,这两个国家的平均增长率是 1.9%。不过,莱因哈特和罗戈夫计算了 2.6% 和-7.6% 的平均值,得到了-2.5% 的平均增长率。

我们不知道莱因哈特和罗戈夫是无意中犯了一个错误,还是故意选择了这种不同寻常的计算方法,为一个国家一年的数据和另一个国家 19 年的数据赋予了相同的权重。不过,我们至少知道这个错误支持了他们的观点。

财政紧缩的支持者认为,莱因哈特和罗戈夫的研究不仅证明了提高政府债务将会降低经济增长速度,而且提出了一个严厉的警告:如果政府债务水平超过 GDP 的 90%,可能会导致经济衰退。

也许,这种因果关系应该倒过来:经济衰退将导致债务比率上升。

30 年前,数学理论家是经济学的上帝。对现实世界一无所知几乎是一种荣誉的象征。当杰拉德·德布鲁(Gerard Debreu)1983 年获得诺贝尔奖时,记者想让他对罗纳德·里根(Ronald Reagan)的经济政策说点什么。德布鲁坚决拒绝发表任何言论。一些人怀疑他不知道或者不关心这种事情。

具有争议性的论断之所以具有争议性,是因为它们违反直觉。

当吉米·卡特总统(President Jimmy Carter)1979 年任命保罗·沃尔克(Paul Volcker)担任美联储主席时,美国的通货膨胀率已经超过了 13%。在一场针对通货膨胀的全面战争中,美联储将利率提高到了前所未有的水平。在被问及这些货币紧缩政策是否会导致经济衰退时,沃尔克回答道:“是的,而且越快越好。”在另一场谈话中,沃尔克表示,“当最后的圆锯停止转动时”,他才会感到满意。这句话的意思是,他希望将利率提到足够高的水平,以堵住借贷源头,使建筑行业停产。

1981 年,住房抵押贷款利率达到了 18%,其他大多数贷款的利率还要更高。

当心将数轴上的零点忽略掉的图像。这种做法也会放大数据的波动性,可能产生误导效果。最糟糕的是数轴上没有数字的图像,因为我们无法判断数据的波动性得到了怎样的放大。

不要被间隔不一致的图像欺骗——比如同样的 1 厘米时而表示五年间隔,时而表示十年间隔。

计算是一件相对容易的工作。更有难度的问题是这种计算是否有道理。

拥有梦想和抱负是好的,但是认清现实更加重要。

对象。参与功能磁共振成像研究的一条成熟的大西洋三文鱼(大西洋鲑)。这条三文鱼长约 45 厘米,重约 1.7 公斤,在扫描时处于无生命状态。

任务。对相关三文鱼执行的任务包括完成一个需要动用大脑的开放式任务。实验向三文鱼展示了一系列照片,照片上描述了社会情境中具有特定情绪效价的人类个体。实验要求三文鱼确定照片中的个体正在经历的情绪。

设计。刺激以区组设计的形式呈现,每张照片展示 10 秒,然后休息 12 秒。共有 15 张照片得到展示。总扫描时间为 5.5 分钟。

分析。实验用一般线性模型(GLM)的普通最小二乘估计对三文鱼立体像素数据进行了处理,用方脉冲函数与标准血液动力反应的卷积模拟血液动力反应的预测指标,并且添加了一个 128 秒的时域高通滤波器,以校正低频漂移。实验没有使用自相关校正。

由于立体像素数量众多,因此出现了一些假阳性,可以被解释成三文鱼对照片和问题的反应。只是这条三文鱼已经没有了生命。

贝内特和他的教授艾比盖尔·贝尔德(Abigail Baird)提出了一个有力的观点:功能磁共振成像研究需要考虑到假阳性问题。多达 40% 的已发表论文并没有做到这一点。

假阳性问题不是由于太困难而解决不了,因为大部分数据分析软件中都集成了相关功能。根本原因还是研究人员们不愿意用严格的统计方法来“损害”自己辛苦获得的数据。

霍乱最初仅仅存在于印度次大陆。不过,19 世纪陆地和海洋贸易路线的发展将这种疾病传播到了世界各地,导致数千万人死亡。

“前后即因果”的逻辑谬论。一个事件紧随另一个事件发生并不意味着后面的事件是由前面的事件导致的。

霍乱是通过摄取被粪便物质污染的饮食传播的。所有发达国家的城市都建设了有效的污水处理系统和清洁供水系统,消灭了流行霍乱。

最重要的一点是,我们应当永远牢记,一项研究的结论有可能受到混杂因素的干扰。

斯蒂格勒定律的内容是:“没有一项科学发现是以其最初发现者的名字命名的。”(斯蒂格勒本人就是一个例子,他指出,罗伯特·K.默顿才是斯蒂格勒定律的发现者。)

辛普森悖论指的是当聚合数据被分解时其中的模式发生逆转的现象。

瑞典的女性死亡率都要低于哥斯达黎加,但瑞典拥有更高的女性总体死亡率。因为瑞典拥有更多的老年女性(老年人拥有相对较高的死亡率)。

阿拉斯加航空公司在五个存在竞争的主要机场,拥有优于另一家航空公司的准点运行记录,但其总体准点记录则不如竞争对手。因为阿拉斯加航空拥有许多飞往西雅图的航班,而西雅图的天气问题经常导致飞机延误。

一种手术对于小型和大型肾结石的治疗成功率均高于另一种手术,但其总体成功率却不如另一种手术。因为它经常被用于治疗大型肾结石(大型肾结石的治疗成功率相对较低)。

在土耳其,咖啡成了日常生活的一个重要组成部分,人们甚至会对准新娘冲咖啡的能力进行评估。结婚以后,如果丈夫无法每天提供咖啡,妻子可以和他离婚。

为了团结人民,古斯塔夫曾向俄罗斯开战。瑞典皇家歌剧院的裁缝为一伙瑞典人制作了俄罗斯军装,这些人穿过俄罗斯边境,向一个瑞典边防哨所开火。

古斯塔夫相信咖啡是一种毒药,并且决定证明这一点。他找到了两个犯下谋杀罪行,即将被斩首的男性双胞胎。古斯塔夫将他们的判决改为终身监禁,但是有一个条件。其中一个人需要每天喝三壶咖啡,另一个人需要每天喝三壶茶。两位由朝廷任命的医生将确保这些要求得到实施,并且需要在双胞胎去世时通知国王。

医生和古斯塔夫都死在了两个双胞胎的前面(古斯塔夫被人刺杀)。喝茶的兄弟最终在 83 岁那年去世,当时喝咖啡的兄弟仍然活得很健康。

选择喝咖啡的人和选择不喝咖啡的人之间可能存在系统性差异。

喝咖啡的人更愿意吸烟。

咖啡最大的风险似乎是伤害胃肠器官的保护层。正因为如此,具有溃疡和其他胃肠问题的人才会被要求停止喝咖啡。

《新英格兰医学期刊》发表了迄今为止规模最大的一项研究,这项研究在 13 年时间里对 40 万人进行了跟踪。研究发现,扣除吸烟、喝酒和锻炼的混杂效应,同不喝咖啡的人相比,每天喝一杯咖啡的人在各个年龄段去世的概率都会下降 5 到 6 个百分点。对于每天喝两杯或三杯咖啡的人来说,男性的风险可以降低 10%,女性的风险可以降低 13%。

最初的研究存在缺陷——而这通常是因为人们忽略了混杂因素,或者为了寻找值得发表的结论而对数据进行了挖掘。

伯克利研究生录取政策歧视女性的说法看上去是合理的。不过,当人们开展深入调查,以确定问题最严重的院系时,他们发现了意想不到的现象——实际上,这些院系倾向于优待女性申请人。女性的总体录取率之所以偏低,是因为她们更喜欢申请录取率较低的教育计划。

我们从一个装满红球和蓝球的巨大容器中取出 10 个球。小数定律指的是这样一种错误观念:如果容器中 50% 的球是红球,那么我们取出的 10 个球中将有 5 个红球。事实并非如此。我们取出 5 个红球和 5 个蓝球的概率只有大约 25%。大多数时候,红球和蓝球的数量是不等的。

赌徒谬误。如果我们取出的前 3 个球是红球,那么我们倾向于(错误地)认为下一个球很可能是蓝球。

我们不断低估巧合在生活中的存在性,没能认识到随机性会生成看上去有意义但实际上毫无意义的模式。我们很容易被那些对无法解释的事情做出解释的说法所引诱。

凯恩斯认为,需求不足不仅是可能的,而且是大萧条的原因。他认为,供给不会自动创造需求;相反,需求常常会创造供给。

1936 年,凯恩斯发表了经典论文《就业、利息和货币通论》,颠覆了经济学理论。实际上,这篇论文创造出了一个全新的经济学分支,叫做宏观经济学。

投资成功是对投资者才能的一种不完美测量。因此,我们也会看到回归现象:平均来看,在任何一年做出最佳股票选择的投资咨询师都会在第二年变得更加平庸。

诺贝尔奖获得者丹尼尔·卡尼曼曾告诉以色列飞行教官,如果新兵接受表扬而不是惩罚,他们可以实现更快的进步。

做出最佳飞行表现的学员通常不具有他们表现出来的那种远高于平均水平的能力。平均来说,不管教官表扬他们,叱责他们,还是一言不发,他们都不会在下次飞行中做出同样好的表现。

平均来说,飞行表现最为糟糕的学员并没有看上去那么无能;如果教官能够控制住自己的吼叫,这些学员可以在下次飞行中做出更好的表现。

卡尼曼写道:由于我们倾向于在其他人表现出色时奖励他们,在其他人表现糟糕时惩罚他们,又由于均值回归现象,因此从统计上看,我们将由于奖励别人而受到惩罚,由于惩罚别人而受到奖励,这是人类社会的一个组成部分。

道琼斯工业平均指数(“道指”)是代表美国最优秀公司的 30 只蓝筹股票的平均价格。

当一家表现糟糕的公司向平均水平回归时,其股价会上涨;当一家表现出色的公司向平均水平回归时,其股价会下跌。这种观点意味着同添加到道指中的股票相比,被道指删除的股票通常会表现得更好。

不管公司多么优秀,我们都需要首先了解股票价格,然后再去判断它是不是一个具有吸引力的投资项目。**

没有人能够仅仅根据简历、介绍信和机场面试知道每位候选人的优秀程度。

正负相抵只是一个笑话,不是值得信赖的规律。

如果炸弹是随机降落的,预计将会有 227 个正方形不会受到炸弹袭击。实际上,229 个正方形躲过了攻击。类似地,我们预计 211 个正方形拥有一枚炸弹;实际上,221 个正方形拥有一枚炸弹。总体而言,观测到的分布与随机轰炸的预期结果非常类似。在随机轰炸的情况下,实际差异和观测到的差异一样大甚至更大的可能性是 95%。这些观测到的炸弹聚集绝对没有任何意义。

即使是完全随机的数据也会出现数据聚集现象,因此我们没有必要根据这种现象徒劳地寻找异想天开的解释。遗憾的是,人们很难抗拒“每一种模式一定有原因”这一想法的诱惑。

即使是随机数据,也可能存在聚集现象。即使癌症在人群中的分布是随机的,癌症受害者也存在地理聚集的可能性。

在权衡理论观点和经验性证据之后,美国国家科学院认为输电线不是一种公共健康威胁,没有必要资助进一步的研究,更不要说拆除输电线了。美国的一份顶级医学期刊同意这种观点,认为我们应当停止将研究资源浪费在这个问题上。就连瑞典那项研究的一位共同作者也做出了让步,认为没有必要进行进一步的研究,除非某种理论能够解释电磁场导致癌症的原因。

对于老人来说,生日并不总是快乐的,因为它不断向人们提醒着时间的流逝。

如果你的目标是发表论文,而且你对数据的直接分析不起作用,那么你可以尝试不太直接的分析方法。做一个德克萨斯神枪手!迟早会有某种方法能够起到作用。进行大量检验,然后仅仅提及与你的理论相符的结果。

对于看上去天马行空的理论,应当抱有极为谨慎的怀疑态度。留意不自然的数据分组。留意研究人员似乎仅仅提到经过仔细选择的一部分统计检验的研究。

1987 年 10 月 19 日黑色星期一的股市暴跌是一个值得研究的现象。其中的一个结论是,美联储愿意而且能够采取阻止股票市场暴跌所需要的任何行动。

总统特别工作组“布兰迪委员会”得到的结论是,所谓的“投资组合保险”(这个名称极具误导性,指的是在价格上升以后购买股票并在价格下降以后销售股票的投资策略)是导致 10 月 19 日暴跌和 10 月 20 日恐慌延续的元凶。布兰迪委员会还认为,股票、期权和期货市场在恐慌期间失去了联系,几乎进入了自由下落的状态。

异常值有时是笔误、测量误差或意外,如果无法得到校正或忽略,它们会扭曲数据。在其他时候,异常值是最重要的观测值,比如臭氧读数。

排除异常值有时会产生误导作用,不排除异常数据则几乎一定会产生误导作用。

弗朗西斯·培根(Francis Bacon)在 17 世纪讲过的一个寓言:我主 1432 年,一群教友对于马嘴里的牙齿数量展开了激烈的辩论。愤怒的争吵整整持续了 13 天。人们翻出了所有古代书籍和编年史,并且表现出了这个地区之前从未见过的广博厚重的学识。到了第 14 天,一名举止优雅的年轻修士请他博学的前辈们允许他说上一句话。他早已对争论双方的智慧感到恼火和愤怒。随后,令人吃惊的是,他恳求他们以一种前所未闻的低俗方式取得和解:朝马儿张开的嘴里瞧上一眼,找到这个问题的答案。

不管一种理论多么愚蠢,只要丢弃不支持这种愚蠢理论的数据,我们就可以找到支持它的数据。

对于任何理论,只要考察大量数据,并且丢弃不支持这种理论的数据,那么你一定能够收集到支持这种理论的证据。

在研究中遗漏数据的做法是一个巨大的危险信号。

许多模式几乎没有任何意义,但它们还是得到了发表,而这仅仅是因为它们具有统计显著性。

艾贝尔和克鲁格得出的“名字始于字母 D 的棒球选手寿命较短”的结论取决于下列人为限制:使用教名而不是教名和姓氏,只考虑 1875 年到 1930 年出生的选手。否则,名字始于字母 D 的美职棒选手的平均死亡年龄差异将不具有统计显著性。

由迪士尼 1958 年拍摄的一部曾经赢得奥斯卡奖的纪录片展示了数千只旅鼠成群结队来到悬崖边跳海自尽的场景。

迪士尼将几十只旅鼠放在被雪覆盖的转盘上,从不同角度拍摄它们在转盘上奔跑并被抛向空中的场面。经过编辑,影片形成了数千只失去理性的旅鼠争相赴死的效果。这种人为编排的场景竟然被称为纪录片!虚拟世界比现实更加奇怪。

旅鼠不会自杀,更不会大规模自杀。所有生物都有生存的本能。不过,人类的确会自杀。

自杀的人显然认为他们的生命极其压抑而且毫无希望,因此做出了停止生存这个不可逆转的决定。

自杀往往在春天和初夏更加常见。

水门酒店的一名保安注意到,一些门闩被黏上了胶带,以防止房门上锁。他叫了警察,他们抓到并逮捕了五名窃贼。

尼克松由于肮脏而有些古怪的竞选策略而被长期称为“狡猾的迪克”,Tricky Dick。

最具戏剧性的事情完全出乎了人们的意料。尼克松曾在总统办公室、内阁会议室以及他的私人办公室里安装麦克风,以秘密记录人们的谈话内容。最高法院强迫尼克松移交这些磁带。

来自印第安纳州的代表厄尔·兰格雷布(Earl Landgrebe)的名声在很大程度上来自他在整个水门听证会过程中对理查德·尼克松总统的坚定支持。他曾告诉记者:“不要用事实迷惑我;我不听。”他还说过:“我将支持我的总统,即使我和他将被带出这座大楼并被射杀。”

“出版效应”,因为具有统计显著性的结果会被写进期刊和图书,而不显著的结果则不会得到报告。

如果我们仅仅根据过去的趋势推测未来,而不去考虑这种趋势是否有意义,那么我们的结论可能会与众所周知的真相相去甚远。

1924 年,计算制表记录公司抛弃了笨拙的名字,换上了一个更有进取心的名字——国际商业机器(IBM)。此后,公司成了持续的一流增长股。到 1978 年,公司业绩已经在超过 50 年的时间里实现了每年约 16% 的增长(扣除通胀因素)。

当时有一种流行的说法:“没有哪个采购经理因为购买 IBM 的计算机而被解雇,没有哪个组合基金经理因为购买 IBM 的股票而被解雇。”

到 1978 年,IBM 已经成了一家很大的公司,持续增长的空间已经不多了。同小公司相比,大公司每年增长 16% 的难度要大得多。

如果 IBM 继续以每年 16% 的速度增长,整个美国的经济继续以 3% 的长期速度增长,到 2003 年,美国的一半产出将是 IBM 的产品,到 2008 年,美国的全部产出将由 IBM 提供。

在 20 世纪 70 年代购买 IBM 的股票、相信 IBM 引人注目的增长速度永远不会停止的投资者在失望中明白了一个道理:你很少能够通过后视镜看到未来。

2007 年 10 月,我所认识的一位财务规划师的许多客户开始借钱,希望能在股市上获得两位数的回报。15 个月后,他们卖掉了一切,因为他们不想在股市上损失另一个 50%。

沃伦·巴菲特(Warren Buffett)曾经说过一句令人难忘的话:“当其他人贪婪时,你应当感到恐惧;当其他人感到恐惧时,你应当贪婪。”

有一个行业专门通过测量投资者的情绪预测股票价格,这个行业叫做技术分析。

一项又一项的研究发现,虽然技术分析拥有这些吸引人的标签,但它几乎没有任何价值——除了雇用技术分析师以及为股票经纪人带来佣金。

即使是专业投资者也很难理解“数据挖掘将不可避免地使人发现完全出于巧合的统计模式”这个道理。

早在 20 世纪 90 年代,当计算机和手机刚刚开始进入我们的生活时,互联网的发展催生出了数百家基于互联网的公司,通常被称为“.com”公司。一些网络公司拥有良好的理念,发展成了强大而成功的公司。不过,许多公司并没有做到这一点。很多时候,人们只想开一家名字里带有“.com”的公司,将其卖给别人,然后带着大量钞票离开。产生不错的想法、创办一家公司、使其成为成功的企业、将其传给儿子和孙子的经济思想实在是太陈旧了。

一家网络公司证明自己的方式不是赚取利润,而是花钱,最好是花别人的钱。

美国有数千家网络公司,但是不可能出现数千个垄断者。在试图迅速壮大的数千家公司中,只有极少数公司能够实现垄断。

大多数网络公司没有利润。因此,心怀梦想的投资者为所谓的“新经济”想出了新的衡量方法,以支持不断上涨的股票价格。他们说,我们不应该沉迷于像利润这样古老的事物;相反,我们应该考察一家公司的销售额、支出和网站访问量。

投资者想要更高的销售额?我把某样东西卖给你们公司,你再把它卖给我。我们没有赚到任何利润,但我们的销售额都在提升。投资者想要更多的支出?再去订购一千把艾龙椅子。投资者想要更高的网站访问量?向访问你们网站的人发放小礼品。购买超级碗广告,宣传你们的网站。记住,投资者想要的是网站访问量,而不是利润。

24 家网络公司在 2000 年 1 月的超级碗比赛期间投放了广告,每 30 秒广告的成本是 220 万美元,这还不包括制作广告的费用。公司不需要利润。它们需要的是流量。

艾伦·格林斯潘是一位令人印象深刻的联储主席。不过,发言者对于“股票价格过高、过低还是刚刚好”的问题仍然只字未提。

1999 年,纪念威尔士王妃戴安娜(Diana)的王妃豆豆娃开始发售。到 2000 年,这款豆豆娃已经卖到了 500 美元。接着,泡沫破裂了。2008 年,我在亚马逊买了一个王妃小熊,其运输费用已经超过了小熊本身的价格。

1720 年春天,艾萨克·牛顿爵士(Sir Isaac Newton)说:“我能计算天体的运动,但我无法计算人类的疯狂”。他卖掉了南海股票,赚了 7000 英镑。当年晚些时候,就在泡沫破裂之前,他再次购买了股票,并且损失了 2 万英镑。

英国议会成员詹姆斯·米尔纳(James Milner)在南海泡沫中破产,他悲叹道:“我说,的确,我们一定很快就会遇到灭顶之灾,但是……它比我的预测早来了两个月。”

伯克希尔的股票之所以如此昂贵,是因为它从不分割,同时伯克希尔在巴菲特的指导下出现了巨大的升值。

巴菲特总是认为股份分割没有意义,他有一个著名的生日贺卡签名:“祝愿你活到伯克希尔分割股份的那一天。”

伯克希尔发售的股票不到两百万股。IBM 拥有超过 10 亿股股票,埃克森美孚拥有 60 亿股股票。这就是一股伯克希尔股票的价值超过一辆保时捷的原因。

扣除通胀因素后的数据被称为真实数据。如果我们的收入提高 10%,消费品价格也提高 10%,那么我们的真实收入没有发生变化,因为我们能够买到的东西和之前相同。

一个显而易见的事实是,如果这些策略真的像公司宣传的那样赚钱,那么这家公司就会利用这些策略赚取更多的利润,而不是去销售什么小册子。

计量金融分析师(“宽客”)用数学和数据来分析股票和其他投资品。他们不关心对总裁人格或产品潜力的主观评价。不要试图和他们谈论史蒂夫·乔布斯(Steve Jobs)、沃伦·巴菲特、智能手机或可口可乐。他们的口号是:“我只看数字!”

收敛交易投资者赌的不是价格上涨或下跌,而是价格收敛到某种历史关系。虽然价格对历史关系的偏差可能很小,但杠杆押注可以将很小的收敛转变成很大的利润。

宽客们常常不会考虑他们发现的模式是否合理。他们会说:“我只看数据。”实际上,许多宽客拥有物理学或数学博士学位,但是只有最基本的经济和金融知识。不过,他们并没有因此而气馁。相反,他们的无知使他们有勇气在最没有希望的地方寻找模式。

有一个笑话。两位金融教授在人行道上看到了一张一百元的钞票。当一位教授伸手去捡钞票时,另一个人说:“别理它;如果它是真的,那么它早就被人捡走了。”金融教授喜欢说,金融市场不会让百元钞票躺在人行道上。

有时,股票和债券存在价格错位。在投机浪潮和金融危机期间,金融市场的人行道上散落着装满百元大钞的手提箱。

离开所罗门公司以后,梅里韦瑟在 1994 年创立了长期资本管理公司。公司的管理团队包括多位曾在所罗门套利小组工作过的麻省理工博士、两位即将在 1997 年获得诺贝尔经济学奖的金融教授(期权专家迈伦·斯科尔斯和罗伯特·C.默顿)以及另一位麻省理工博士戴维·马林斯(David Mullins)。马林斯曾经担任联邦储备委员会副主席,他本来有机会接替艾伦·格林斯潘成为美联储主席。

长期资本管理公司的早期策略之一与到期日略有差异的美国国债有关,比如刚刚发行的 30 年国债和几个月以前发行的 30 年国债。二者的利率应当是基本一致的,但新发行的债券往往具有更加活跃的交易,因此短期进出市场的交易者更喜欢这种债券。债券市场为之前发行的债券制定稍微高一些的利率,因为这种债券寻找买家比较困难。

凭借 25 比 1 的杠杆,长期资本管理公司的真空吸尘器 1994 年赚了 28%,1995 年赚了 59%,1996 年赚了 57%,1997 年至少赚了 22%(扣除管理费之前)。这种巨大杠杆的问题是,即使预想中的收敛暂时转为发散,公司也会受到致命打击。

英国一句古老的谚语所说,“即使你把杯子举到嘴唇跟前,你也有可能遇到许多不测。”。

正如伟大的英国经济学家约翰·梅纳德·凯恩斯在大萧条中观察到的那样:这种长期趋势是对当前事务的误导。长期来看,我们都会死去。如果经济学家在混乱时期只能告诉我们“风暴过后海洋还会恢复平静”,这说明他们为自己布置了一项过于简单、毫无意义的任务。

现在来看,长期资本管理公司当时是在推土机面前盲目地捡硬币——收集微小的利润,忽视了灾难性风暴的可能性。

无所事事总比做一些愚蠢的事情要好。

长期资本管理公司还相信美国抵押贷款利率和国债利率之间存在紧密的关系,但是二者也不是同步变化的。二者的违约风险差别很大,而且抵押贷款拥有更大的复杂性。

一位经理后来惋惜道:“我们有一些专业学者,他们进入公司时没有任何交易经验,但他们立即开始设计模型。根据他们制定的假设,他们的交易看上去也许不错,但是这些假设常常无法通过最简单的常识性检验。”

第二个错误是认为不同赌注(比如对意大利债券、德国股票和美国押抵贷款的赌注)在很大程度上是不相关的,因为它们在历史上是不相关的。

俄罗斯违约后,历史上毫不相关的投资突然具有了高度相关性。各个领域的风险溢价都在上升,推土机碾过了硬币收集者。

在长期资本管理公司的鼓舞下,许多山寨公司要么猜出了长期资本管理公司的动作,押下了相同的赌注,要么使用类似的统计模型,得到了相同的赌注。当这些赌注出问题时,许多山寨公司开始平仓,卖出长期资本管理公司买入的资产,买入长期资本管理公司卖出的资产。价格没有收敛,反而越来越发散。

长期资本管理公司声称,它所需要的仅仅是时间而已。只要等待足够长的时间,金融市场就会恢复正常。不过,他们已经没有时间了。

凯恩斯不仅是一位经济学大师,也是一位具有传奇色彩的投资者。他的一句广为传诵的评论是:“市场维持非理性的时间可能会超出你拥有偿付能力的时间。”

也许,长期资本管理公司的亏损最终会转变成盈利。不过,公司的偿付能力已经支撑不到那一天了。

9 月 23 日,沃伦·巴菲特给长期资本管理公司发送了一份一页纸的传真,提出以 2.50 亿美元收购公司的建议,这相当于公司年初净值的大约 5%。这份提议不接受讨价还价,而且将在中午 12∶30 过期,这与传真的发送时间只隔了一个小时左右。截止时间很快过去了,公司没有抓住机会,葬礼的准备开始了。

纽约联邦储备银行担心长期资本管理公司违约的多米诺骨牌效应将会引发全球金融危机。美联储和长期资本管理公司的债权人接管了公司,并且投入了足够多的资金,以争取时间对公司的资产进行有序清算。

长期资本管理公司破产以后,梅里韦瑟和公司的其他许多合作伙伴根据几乎相同的策略创办了新的基金。大多数基金公司在 2007~2009 年的金融危机期间破产,其原因往往与长期资本管理公司失败的原因相同。没关系。梅里韦瑟迅速创办了另一家基金公司。

骗我一次是你的耻辱,骗我两次是我的耻辱。骗我三次……

2010 年 5 月 6 日,美国股票市场遭遇了所谓的“闪电崩盘”。没有人知道计算机被触发的准确原因。即使是编写计算机程序的人也不理解它们的交易。在 15 秒之内,计算机相互之间交易了 2.7 万份合约,占交易总量的一半。

这场狂热之所以结束,是因为期货市场的内置保护机制将所有交易中止了 5 秒钟。令人难以置信的是,5 秒钟的价格稳定足以说服计算机停止疯狂的交易。15 分钟后,计算机恢复了正常,道指暂时性的 600 点下跌仅仅给人们留下了一个荒诞的回忆。

2013 年 8 月 30 日,宝洁在纽约股票交易所(NYSE)再次中招。这是一次迷你闪电崩盘,因为纽交所的其他股票并没有受到影响,宝洁在其他交易所的股票也没有受到影响。

由于无法解释的原因,宝洁在纽交所的股票在一秒钟之内发生了 200 次交易,一共涉及大约 25 万股股票,导致股价下跌 5%,从 77.50 美元降至 73.61 美元,然后在不到一分钟以后恢复正常。一个幸运的人恰好在正确的时间和正确的地点购买了 6.5 万股股票,迅速获得了 15.5 万美元利润。

不要把资金押在历史模式以及几乎没有合理解释的关系上。

当阿尔伯特·爱因斯坦被问及他所了解的最重要的概念时,他立即给出了“复利”这个答案。不是统计力学。不是量子理论。不是相对论。是复利。

我们生来倾向于以某种方式理解周围的世界——发现模式,并且编造出解释这些模式的理论。我们低估了毫无理由的随机事件生成幸运或不幸模式的容易程度。

人口随时间增长,许多人类活动也是如此,包括看电视的人数、吃橘子的人数以及死亡人数。这些数据是不相关的,但它们存在统计相关性,因为它们都会随着人口的增长而增长。看电视并不会导致我们吃桔子,吃桔子也不会导致死亡。在统计学中,相关性并不是因果关系的代名词。不管两种事物的关系多么紧密,在做出判断之前,我们都需要一种合理的解释。

当你听到某种令人困惑的(甚至合理的)论断时,应当考虑是否存在混杂因素的作用。

一些德克萨斯神枪手向几百个目标开火,然后只报告他们击中的目标。他们对几百种理论进行检验,然后只报告最符合数据的理论。

德克萨斯神枪手,他们随机开枪,并在弹孔最多的区域绘制靶心。

有时,研究人员会隐藏自己的德克萨斯神枪手身份,我们需要使用一些侦探技巧发现他们的恶作剧。寻找不自然的数据分组。当研究人员似乎只报告了一部分统计检验时,应当保持警惕。不要轻易相信那些与数据相符、与常识不符的理论。当某种理论来自对数据的搜刮时,我们无法用这些数据对理论进行公平的检验。

忽略一部分数据的研究真正证明的结论是,一些追求升迁、终身职位或经费的人可以丢弃不支持荒谬理论的数据,从而找到支持这些荒谬理论的证据。

在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求。

著名经济学家罗纳德•科斯曾说:“如果你对数据拷打足够长的时间,它一定会招供。”有些人是误用了统计学,得出了错误的结论;有些人——甚至是久负盛名的学者,则是故意用错了统计学,得出了自己想要的结论。

Written on December 20, 2022