第1章 模式、模式、模式
在我所生活的南加州,青少年对于足球的热情很高。这是一项经济而有趣的运动,各种身高和体型的男生和女生都可以参与其中。起初,我对足球一无所知。我只知道在每个周末,城市里的公园和操场上都会有许多身穿鲜艳队服的孩子追着足球跑来跑去,他们的家长则会站在一旁为他们欢呼。当我的儿子长到合适的年龄时,我们也成了这些家长中的一员。
2010年世界杯时,我的儿子在南加州一家顶级足球俱乐部踢球。我是这家俱乐部的经理,也是足球的狂热爱好者,因此我们共同观看了我们能够看到的每一场世界杯比赛。决赛是在荷兰和西班牙之间进行的。这是两支巨星云集的队伍,但是它们所在的国家常常无法取得很好的成绩,这使它们的支持者非常失望。哪个国家最终能够赢得世界杯?我喜爱荷兰队,他们赢得了这届世界杯之前的6场比赛,进了12个球,只丢了5个球,而且淘汰了强大的巴西和乌拉圭。接着,我听说了章鱼保罗(Paul)的故事。人们将装有食物、贴有国旗的塑料盒子放在保罗面前,让它进行选择。通过这种方式,保罗正确预测出了7场世界杯比赛的获胜者。在决赛前,预言家保罗选择了西班牙,因此全世界似乎都认为西班牙将会成为胜利者。
到底发生了什么事情?一只黏糊糊的、缺乏智商的无脊椎动物怎么可能比我更加了解足球呢?我感到好笑,等待着无所不知的保罗在全世界面前丢脸。我失算了。荷兰队没有表现出应有的创造性和才华。在一场粗暴而蹩脚的比赛中,裁判亮出了14张黄牌——其中9张给了肮脏的荷兰人。凭借终场前4分钟的进球,西班牙队取得了胜利。
生活在水箱里的章鱼怎么可能预见到这种事情呢?保罗看过足球比赛吗?它有大脑吗?
实际上,章鱼是最聪明的无脊椎动物。不过,就像矬子里拔出来的将军一样,这并不能说明任何问题。尽管如此,保罗仍然进行了8次世界杯预测,而且无一失手。此外,保罗还在2008年欧洲足球锦标赛期间进行了6次预测,成功了4次。加上2010年世界杯,保罗一共进行了14次预测,成功了12次。在许多人看来,这足以从统计上证明保罗的超自然能力。不过,这些数据真的足够多吗?
如果进行14次公平的抛硬币实验,得到12次或者12次以上正面的可能性只有不到1%。同样的道理,如果保罗仅仅是一个没有特殊运气的猜测者,每次正确预测的可能性为50%,那么它多次预测成功的概率只有不到1%,这个概率非常低,足以被视作具有“统计显著性”。由于保罗多次预测成功的可能性如此之低,因此我们可以合理地排除运气的成分。保罗用一次又一次的成功证明了它不仅仅是一个幸运的猜测者。它的确是“具有超能力的章鱼保罗”!
不过,这件事似乎有些蹊跷。章鱼真的有可能预测未来吗?保罗的表现可以引出统计研究领域的一些常见问题。保罗不是超能力者(真是令人惊喜),而是一个应当引以为戒的反面教材。当你下次听到某种荒诞的说法时,你应当保持警惕。
△混杂效应
首先,让我们看一看保罗是如何进行预测的。在喂食的时候,人们会把两只正面粘有球队国旗的透明塑料盒子摆放在保罗面前。盒子里面放着相同的美味食物,比如贻贝或者牡蛎。保罗第一个打开的盒子就是它所预测的胜利者。
章鱼并不十分了解足球,但它们拥有出色的视力和良好的记忆力。有一次,新英格兰水族馆的一只章鱼对一名志愿者产生了反感。每当它看到这名志愿者时,它都会向她喷射海水。后来,这名志愿者离开了水族馆,上了一所大学。当她几个月以后回来时,章鱼仍然记得她,并且立即用海水淋湿了她的衣服。西雅图一家水族馆做了一项实验,一名志愿者为章鱼喂食,另一名穿着同样衣服的志愿者用木棍挑逗章鱼。一个星期以后,大多数章鱼都能将两个人区分开。当它们看到“好人”时,它们会向他靠近;当它们看到“坏人”时,它们会离开(有时还会向他喷射许多海水)。
“具有超能力的章鱼保罗”生活在德国的一家水族馆里。除了西班牙和荷兰的世界杯决赛,保罗只预测了德国队参加的比赛。在德国参加的13场比赛中,保罗11次选择了德国——而德国赢下了其中的9场比赛。保罗之所以选择德国,是因为它对德国的对手进行了详细的分析,还是因为它喜欢德国国旗?保罗几乎一定是色盲,不过实验表明,章鱼能够识别明暗度,而且喜欢横向形状。德国国旗有由三块鲜艳的水平条纹组成,塞尔维亚和西班牙的国旗也是如此,而保罗只选择过这三个国家。实际上,西班牙和德国的国旗非常相似,这也许可以解释为什么保罗在西班牙和德国之间的两次比赛中选了一次西班牙,并在世界杯决赛中选择了西班牙而不是荷兰。保罗只有一次没有选择德国或西班牙国旗,那是塞尔维亚和德国之间的一场比赛。
国旗显然是一个混杂因素,因为保罗选择的并不是最佳足球队,而是它最喜欢的国旗。说到底,“无所不知的保罗”只是一只缺乏智商的章鱼而已。
图1.1 保罗最喜欢的国旗
△选择性报告与谎报
对于保罗的成功,另一种解释是,许多人多次尝试过这种愚蠢的宠物把戏,用宠物来预测体育、彩票和股票领域的获胜者。
在1000个抛硬币的人之中,一定会有一些人连续抛出10次正面。同样的道理,在这些尝试宠物把戏的人之中,一定会有一些人取得成功。你觉得谁会得到报道呢?是选中获胜者的章鱼,还是无法做出成功预测的鸵鸟?
几年前,《达拉斯晨报》的一位体育专栏作家度过了极为倒霉的一个星期,他在选择国家橄榄球联盟(NFL)比赛的获胜球队时猜对了1次,猜错了12次,还有一场比赛是平局。他写道:“理论上说,如果让达拉斯动物园里的一只狒狒观看14场NFL比赛的赛程,让它为每场比赛选择一支球队,它可以至少选出7支获胜球队。”第二个星期,拉达斯动物园里的大猩猩“坎达大帝”(Kanda the Great)通过选择训练员手里的纸条进行了预测。结果,坎达猜对了9次,猜错了4次,击败了《达拉斯晨报》的所有6位体育专栏作家。媒体像发现食物的饿狼一样争相报道这个故事。不过,如果坎达的表现没有这么好,比如猜对6次,猜错7次,它还会被人报道吗?
明尼苏达州苹果谷市明尼苏达动物园的官员也不甘示弱,他们表示,一只叫做明迪(Mindy)的海豚成功预测出了NFL比赛的结果。他们制作了一些树脂玻璃片,每个玻璃片上写有不同球队的名称。他们将每场比赛对应的两块树脂玻璃片扔到明迪的游泳池里,被明迪交还给训练员的那块玻璃片被视作它的“预测”。训练员表示,明迪在53场比赛中猜对了32场。根据这种说法,明迪的成功率为60%,这足以帮助人们借此赢得橄榄球比赛的赌博而获利。
有多少鸟儿、蜜蜂和野兽曾经尝试预测NFL比赛、并且由于预测失败而没有得到报道呢?我们并不知道这一点,而这正是问题的关键。如果数百只宠物曾经被迫进行毫无意义的预测,而且我们只知道其中得到报道的成功宠物,没有考虑到数百只没有得到报道的失败宠物,我们就会产生错误的想法。
这个问题不限于橄榄球领域。明尼阿波利斯的一名股票经纪人曾经吹嘘说,当他选择股票时,他会把《华尔街日报》铺在地板上,让它的金毛寻回犬把右前爪放在报纸上,然后选择它的第一个指甲碰到的股票。他认为这种说法可以吸引投资者的关注,这一事实说明他本人可能是有问题的——他的顾客可能也有问题。
另一个因素是,为了出风头,人们可能会捏造数据,以吸引公众的注意。明尼阿波利斯那个股票经纪人和他的狗每天早上都会得到公正的监督吗?过去,桥牌曾经是美国最流行的扑克游戏,当时有许多人向当地报纸表示,他们抽到了同一花色的十三张牌。一位喜欢数学的桥牌选手通过估计发现,出现这种情况的数量太过离谱。考虑到抽到这种牌的可能性,当时进行过的总局数远远不足以产生如此众多的“同花色局”。值得注意的是,报纸报道的这种相同花色通常是黑桃。显然,为了让自己的名字出现在报纸上,人们对自己的经历进行了润色。
在章鱼保罗获得全世界的关注以后,新加坡一个之前默默无闻的算命先生表示,他的助手、长尾小鹦鹉马尼(Mani)正确预测出了世界杯四分之一决赛的所有四支获胜球队。于是,马尼获得了全世界的关注。接着,它对后面的比赛进行了预测,认为在半决赛中乌拉圭将击败荷兰,西班牙将击败德国,在决赛中,西班牙将击败乌拉圭。在荷兰战胜乌拉圭以后,马尼改变了它对决赛的预测,选择了荷兰,这个结果当然又错了。不过,前来拜访这位算命先生的顾客从每天10个人增加到了每小时10个人——面对这个结果,你可能会产生疑问:这位主人的动机真的仅仅是娱乐吗?他最初提供的马尼对四分之一决赛的预测结果是真的吗?
保罗和马尼本应默默无闻,处于无人知晓的状态。为什么它们会声名鹊起、受到足球爱好者的认真对待,甚至受到他们的赞美和诅咒?真正有问题的不是它们,而是我们自己。
△易受欺骗的本性
一个多世纪以前,夏洛克·福尔摩斯(Sherlock Holmes)向他饱受折磨的朋友华生(Watson)恳求道:“数据!数据!数据!我不能在没有黏土的情况下制造砖块。”今天,福尔摩斯的愿望已经得到了满足。强大的计算机可以对海量数据进行筛选。问题不再是我们没有足够的数据,而是我们眼前的数据对我们产生了误导。这不完全是我们的错。我们可以将责任归咎于我们的祖先。
某些性状的演化原理比较简单。如果生物的某些可遗传特点能够帮助它们生存和繁衍,那么同那些在其他方面相似,但是没有这些特点的个体相比,拥有这些特点的个体更容易将它们传给未来的后代。经过一代又一代的传递,这些可遗传的特点将成为群体的主流。
桦尺蠖著名的演化历程是一个简单而直观的例子。这种飞蛾大部分时间生活在树上,它们通常是浅色的,这种颜色可以帮助它们躲避鸟儿的捕食。1848年,英国发现了第一只深色桦尺蠖。到了1895年,曼彻斯特98%的桦尺蠖都是深色的。到了20世纪50年代,情况再次出现了逆转。目前。深色飞蛾已经很少见了,而且可能很快就会灭绝。
进化论的解释是,深色飞蛾的出现与工业革命导致的污染相重合。煤灰和烟雾导致树木变黑,这使深色飞蛾获得了优势,因为它们可以更好地伪装自己,躲过捕食者的视线。由于深色飞蛾存活下来并繁衍后代的可能性得到了提高,因此它们开始成为基因池的统治者。后来,英国的空气清洁法律扭转了这一局面,因为浅色飞蛾可以更好地在没有污染的树上伪装自己。它们的生存优势使它们再次焕发了生机。
自然选择的其他例子更加微妙。例如,许多研究发现,男性和女性更喜欢具有对称面孔和身体的人。这不仅仅是一种文化因素——它适用于不同的社会,适用于婴儿,甚至适用于其他动物。在一项实验中,研究人员剪掉了一些雄性家燕的尾羽,使它们失去了对称性。其他雄性家燕则保留了对称的尾羽。当他们在这个基因池中放开雌性家燕时,这些雌性家燕选择了带有对称羽毛的雄性家燕。这种对于对称性的偏爱并不仅仅是一种肤浅的行为。缺乏对称性的潜在配偶显然存在某种基因缺陷,可能影响它的力量、健康和生育力。拥有对称性偏好的个体最终将成为基因池的统治者,而缺乏这种偏好的个体拥有强壮、健康和可育后代的可能性要低一些。
进化也是许多人对保罗和马尼信以为真的原因,尽管你可能不相信这一点。我们对于对称性的内在偏好,可以很好地说明我们的人类祖先是如何通过识别各种模式在这个残酷的世界上生存和繁衍的。乌云常常是降雨的前奏。灌木丛中的声音可能是捕食者发出的。毛发质量是繁殖力的象征。一些远古祖先可以通过模式识别更好地寻找食物和水源,发现危险,对可育伴侣产生吸引力,他们将这种能力传给了未来的后代。那些不太擅长模式识别,因而不太容易生存和繁衍的个体将基因传下来的可能性要小一些。通过无数代自然选择,我们形成了寻找模式并对其做出解释的内在倾向——乌云会带来降雨,捕食者会发出声音,繁殖力强的成年人拥有漂亮的毛发。
遗憾的是,这种适用于远古祖先的模式识别技能并不能很好地适应我们的现代生活,因为我们面对的数据非常复杂,不是很容易解释。我们解释眼前事物的内在愿望导致了两种认知错误。首先,我们很容易被模式以及解释模式的理论所引诱。其次,我们紧盯着支持这种理论的数据,忽视与之相矛盾的证据。我们相信这些故事,因为它们与我们观察到的模式相符。一旦我们接受了这些故事,我们就很难放弃它们了。
当你在双骰赌桌上不断摇出七点时,你认为自己将继续保持连胜势头,因为你希望如此。当你不断投出两点时,你认为自己转运的时候到了,因为你希望如此。我们并没有认真地考虑过,骰子既不会记忆过去,也不会关心未来。它们是没有生命的;它们所具有的意义完全是我们这些满怀希望的人类赋予它们的。如果连胜势头持续,或者连败势头终止,我们就会更加相信自己想象出来的理论是正确的。如果这种情况没有出现,我们就会制造一些借口,以便坚持自己荒谬的信仰。
当运动员穿上没有洗过的幸运袜子,当投资者购买热门股票,当人们投入大笔资金购买不良资产、相信它们一定会触底反弹时,他们的行为和上面如出一辙。我们渴望使不确定的世界变得更加确定,渴望控制我们无法控制的事物,渴望预测那些无法预测的现象。如果我们穿着这种袜子取得了良好的表现,那么这一定是袜子的功劳。如果其他人购买这只股票赚了钱,那么我们购买这只股票也可以赚钱。如果我们运气不好,那么我们一定会转运,不是吗?秩序比混乱更加令人舒适。
由于这些认知错误,我们很容易受到各种统计性骗局的蒙蔽。当人们用毫无意义的模式来证明政府政策的后果、营销计划的不凡影响、投资策略的成功或者保健品的效果时,我们很容易认为这些模式是有意义的。由于我们在内心深处希望理解这个世界,因此我们形成了这种声名狼藉的、很难摆脱的弱点。
△无论文,不生存
即使是受教育程度很高、应当具有冷静头脑的科学家也很容易受到模式的诱惑。在残酷的学术研究领域,聪明好胜的科学家一直在追求名誉和资助,以维持他们的事业。这种必要的支持是由他们在同行评议期刊中发表的成果决定的。“无论文,不生存”是大学生活中的一个残酷现实。
有时,在巨大的压力面前,研究人员甚至会撒谎和作弊,以实现个人的职业发展。为了生存,他们需要得到能够发表的结果,但他们的实验结果并不符合预期,这使他们感到沮丧;此外,他们还会担心其他人抢先发表类似的结果。因此,这些研究人员有时会对实验数据做手脚。毕竟,如果你相信你的理论是正确的,那么编造出证明这种理论的数据又有什么关系呢?
英国医生安德鲁·韦克菲尔德(Andrew Wakefield)制造的疫苗恐慌就是这种欺骗的一个严重案例。1998年,韦克菲尔德和其他人在久负盛名的英国医学期刊《柳叶刀》上发表了一篇论文,称12名正常儿童在接种麻疹、腮腺炎和风疹(MMR)的疫苗以后患上了自闭症。实际上,在发表这篇论文之前,韦克菲尔德已经在一场新闻发布会上公布了他的研究成果,并且呼吁停止接种麻腮风三联疫苗。
许多家长看到了这方面的新闻报道,对于之前的例行程序产生了疑虑。他们的孩子患上自闭症的可能性似乎比感染麻腮风的可能性更加令人担忧;毕竟,后者在英国几乎已经绝迹了。一百多万名家长拒绝让他们的孩子接种麻腮风疫苗。
虽然我住在美国,但我和我的妻子也读到了这些新闻故事,并且产生了忧虑情绪。我们在1998年、2000年和2003年生下了3个儿子,并在2006年生下了1个女儿,因此我们需要决定是否为他们接种疫苗。我们进行了调研,同一些医生进行了交谈。所有医生都对韦克菲尔德的研究持怀疑态度。他们指出,没有任何证据表明自闭症正在变得更加流行;我们之所以听到更多的自闭症案例,是因为自闭症的定义近年来得到了拓宽,而且医生和家长对于自闭症症状的意识有所提高。另一方面,麻疹、腮腺炎和风疹是极具传染性的疾病,它们之所以在许多国家得到了有效的清除,恰恰是因为这些国家推行了常规免疫接种计划。如果我们的孩子不接种疫苗,不仅他们会面临危险,其他孩子也会陷入危险之中。此外,这项研究样本很小(只有12个孩子),而且作者似乎急于将其公之于众,这些都是很大的疑点。最终,我们决定为我们的孩子接种麻腮风疫苗。
不是只有我们遇到的医生产生了怀疑。一些人试图复制韦克菲尔德的结果,但他们并没有发现自闭症和麻腮风疫苗之间的任何关系。更糟糕的是,伦敦《星期日泰晤士报》记者布赖恩·迪尔(Brian Deer)在2004年进行了一项调查,在韦克菲尔德的研究中发现了一些可疑的反常之处。韦克菲尔德的研究似乎得到了一些律师的资助,这些律师希望接到针对医生和制药公司的利润丰厚的人身伤害诉讼。更加令人吃惊的是,韦克菲尔德本人显然正在计划推出一种替代性疫苗,他认为这种疫苗是安全的。韦克菲尔德的结论是否受到了这些利益冲突的影响?
韦克菲尔德声称自己并没有做出不道德的行为,但迪尔并没有停止挖掘。他发现了一些更加可恶的事情:韦克菲尔德论文中的数据与英国国民健康服务系统的官方医疗记录不符。在韦克菲尔德声称患上倒退型自闭症的9名儿童中,只有一个人被明确诊断出了这种疾病,还有3个人根本没有患病。韦克菲尔德声称12个孩子在接种麻腮风疫苗之前“是正常的”,但是其中5个人拥有发育问题的历史记录。
韦克菲尔德这篇论文的大多数共同作者很快撇清了自己与文章的关系。《柳叶刀》2010年撤销了这篇论文,并表示,“论文中的说法显然是完全错误的,这是一件毫无疑问的事情。”《英国医学期刊》称韦克菲尔德的研究是“精心策划的骗局”,英国医学总会禁止韦克菲尔德在英国行医。遗憾的是,这个错误还是造成了一些损失。到目前为止,已经有数百名没有接种的儿童死于麻疹、腮腺炎和风疹,还有数千名儿童处于危险之中。2011年,迪尔获得了英国新闻奖,因为他对韦克菲尔德的调查“很好地纠正了一个错误”。我们只能祈祷韦克菲尔德的真面目能够像他的虚假警报一样得到媒体的大量报道,希望家长能够再次允许他们的孩子接种疫苗。
疫苗是一种注射到人体中的病原体,因此人们对疫苗的担忧存在一定的合理性,尤其是与孩子的安全有关的疫苗。不过,那些不合理的结论呢?人为制造的数据能够使我们相信那些明显具有荒谬性的观点吗?
迪德里克·斯塔佩尔(Diederik Stapel)是一位极为多产、成功的荷兰社会心理学家,以设计全面细致的调查方案著称,这些方案通常以研究生或同事为调查对象。奇怪的是,作为一名高级研究员,他竟然亲自开展调查,而且很可能是在只有他能够进入的学校里进行的。另一件奇怪的事情是,斯塔佩尔常常知道同事的研究兴趣,并且声称他已经收集到了同事需要的数据;斯塔佩尔可以提供这些数据,条件是他需要被列为研究报告的共同作者。
斯塔佩尔是几百篇论文的作者或共同作者,他还在2009年获得了实验社会心理学会的职业轨迹奖。2010年,他当上了蒂尔堡社会和行为科学学院的院长。斯塔佩尔的许多论文具有争议性,但是至少看上去比较合理。不过,另一些论文已经超出了看似合理的界限。在一篇论文中,斯塔佩尔声称,凌乱的房间会加剧人们的种族主义倾向。在另一篇论文中,斯塔佩尔认为吃肉——甚至仅仅是考虑吃肉——会使人变得更加自私。(是的,我没有开玩笑!)
斯塔佩尔的一些研究生对于这些稀奇古怪的理论产生了怀疑,他们想要查看实际数据,以了解这些数据是如何支持他的理论的。令人失望的是,斯塔佩尔拒绝向他们展示调查数据。他们把这件事报告给了心理系主任。很快,斯塔佩尔承认,他的许多调查结果要么进行了篡改,要么完全是编造的。他解释说:“我想以很快的速度做出许多成果。”
2011年,斯塔佩尔被停职,随后被蒂尔堡大学解雇。2013年,斯塔佩尔放弃了自己的博士学位,并且撤销了50多篇含有虚假数据的论文。他还同意从事120小时的社区服务,并且放弃与18个月薪水相当的利益。作为交换,荷兰检察官同意不对他滥用公共研究基金的行为提起刑事指控,因为这些政府拨款主要用于支付研究生的工资,而这些研究生并没有犯下任何错误。与此同时,我们在吃肉和弄乱房间时也可以减少几分愧疚感。
伪造数据的另一个例子涉及超感知觉(ESP)测试。早期超感知觉实验使用心理学家卡尔·齐纳公爵(Duke Karl Zener)设计的一副纸牌。这副纸牌共有25张牌,包括5种符号:圆圈、十字、波浪线、方块和星星。在洗过牌以后,“发送者”依次查看每张纸牌,“接收者”需要猜测纸牌上的符号。
图1.2 五种齐纳纸牌
一些怀疑者指出,接收者可以偷看纸牌,或者从发送者的行为中寻找细微的线索,比如快速扫视、微笑或者挑眉,从而获得较高的分数。沃尔特·J.利维(Walter J. Levy)是超感知觉先驱J. B.莱因(J. B. Rhine)创立的通灵学研究所主任。为了平息上述批评,利维用计算机和非人类对象做了一些实验。在一项实验中,他把包含小鸡胚胎的鸡蛋放在孵化器里,并用一个电灯为孵化器加热,电灯的开关由计算机随机事件生成器控制。随机事件生成器开灯的可能性是50%。不过,利维表示,小鸡胚胎能够对计算机产生影响,使电灯打开的时间超过一半。
利维的一些同事对这些“具有心灵感应能力的小鸡”产生了怀疑(我倒希望这是真的),而且对于利维在实验期间对设备的过度关注感到困惑。他们对计算机进行了改动,使之能够将结果秘密记录下来。然后,他们躲在一个隐秘的地方,对实验进行了观察。他们的担忧得到了证实。秘密记录表明,电灯打开的时间只占总时间的一半。而且,他们看到利维对设备进行了干预,将电灯打开的时间提高到了50%以上。面对同事的质问,利维承认了自己的行为,并且辞去了职务。后来,他解释说,为了发表论文,他面临着很大的压力。
△统计显著性膜拜
不过,我们最感兴趣的例子与虚假数据无关。这些例子涉及的做法更加微妙,更加常见。许多人对统计显著性非常关心。这是一种奇怪的宗教,它受到了研究人员近乎盲目地崇拜。假设我们想要通过检验了解,每天服用阿司匹林能否降低心脏病发作的风险。理想情况下,我们会对健康个体的两个随机样本进行比较。一个样本每天服用阿司匹林,另一个样本每天服用安慰剂——与阿司匹林具有类似外观、感觉和味道的惰性物质。这种检验应当是双盲检验:受试者和医生并不知道谁在哪个小组里。否则,病人报告“正确结果”(以及医生听到“正确结果”)的可能性也许会高于真实水平。
当研究结束时,统计学家就会介入进来。这里的统计问题是,在完全随机的情况下,两个小组的差异达到实际观测值的概率有多大。在大多数研究人员看来,小于0.05的概率具有“统计显著性”。如果数据中的模式仅凭运气出现的可能性不到1/20,这种模式就会被视作具有统计说服力。章鱼保罗的数据具有统计显著性,因为它仅凭运气得到这种结果的可能性不到1%。
在一项涉及2.2万名男性医生的阿司匹林研究的前五年,安慰剂组出现了18个致死性心脏病发作案例,阿司匹林组则只出现了5个同样的案例。在完全随机的情况下,这种巨大的差异发生的概率不到1%。至于非致死性心脏病发作,安慰剂组有171个案例,阿司匹林组有99个案例。这种巨大的差异仅凭运气出现的可能性约为十万分之一。这些结果具有统计显著性,因此美国心脏学会目前建议心脏病发病风险较高的患者每天服用阿司匹林。
另一方面,没有发现统计显著性的结果有时比发现统计显著性的结果更加重要。1887年,阿尔伯特·迈克耳孙(Albert Michelson)和爱德华·莫利(Edward Morley)测量了与地球运动方向平行和垂直的光速,希望找到二者之间的差异,以证明当时一种流行的理论。不过,他们并没有发现任何具有统计显著性的差异。他们的研究为爱因斯坦狭义相对论的提出和接纳奠定了基础。他们这项“失败”的研究为物理学革命做出了贡献。
再说一个更能说明问题的例子。我们将在后面的章节中讨论关节镜手术,这是一种针对膝骨关节炎的常规程序,每年会进行几十万次。最近的研究发现,这种手术带来的利益没有统计显著性,这一结论每年可以节省数百万美元资金,而且可以免去手术带来的不便和并发症风险。同许多发现罕见疾病疗法统计显著性的研究相比,这项没有在常见手术中发现统计显著性的研究显然具有更大的价值。
不过,一项针对心理学期刊的研究发现,在所有得到发表的检验结果中,97%的结果具有统计显著性。当然,在研究人员进行的所有检验中,具有统计显著性的检验比例不会达到97%。之所以出现上述结果,是因为编辑通常认为不具有统计显著性的检验没有发表的价值。
这个问题不限于学术领域。当商业或政府研究人员试图证明某个策略、计划或政策的价值时,他们往往觉得自己必须展示出具有统计显著性的经验性证据。不管是在哪里,研究人员都在追逐统计显著性,而这并不是一个难以寻觅的目标。在高速计算机和大量数据的帮助下,寻找统计显著性是一件很容易的事情。如果你观察得足够仔细,你甚至可以在随机数据表格中发现统计显著性。
寻找统计显著性的一种方法是对多种理论进行检验,然后只宣布具有统计显著性的结果。即使只考虑毫无价值的理论,也会有1/20的检验表现出统计显著性。在海量数据和高速计算机的帮助下,在生成“可发表结果”的巨大压力下,无数毫无价值的理论得到了检验。成千上万的研究人员对无数理论进行检验,将那些具有统计显著性的结果记录下来,并将其他结果扔到一边。对于社会公众来说,我们只能看到这些统计工作的冰山一角。我们只能看到具有统计显著性的结果,看不到不具有统计显著性的结果。如果我们知道这些得到公布的检验背后隐藏着数百项没有得到公布的检验,而且知道对毫无价值的理论进行的检验中平均有1/20的检验能够得到统计显著性,我们一定会抱着更加怀疑的态度看待这些得到公布的结果。
比如说,制药公司会对数千种实验性药物进行检验。即使在设计良好的无偏研究中,我们也会发现数百种毫无价值的药物表现出具有统计显著性的效果——而这又可以带来巨大的利润。制药商很喜欢对更多的新药进行检验。不过,他们并不喜欢对得到批准的疗法进行重新检验,以查看最初的结果是否仅仅是一种巧合,是否属于1/20碰巧具有统计显著性的毫无价值的疗法。
当得到批准的疗法接受重新检验时,结果常常令人失望,这是一件意料之中的事情。约翰·约安尼季斯(John Ioannidis)在希腊约阿尼纳大学、马萨诸塞州塔夫斯大学医学院以及加利福尼亚州斯坦福大学医学院任职。(想象一下,他需要飞行多少公里,放弃多少睡眠时间!)在整个职业生涯中,约安尼季斯一直在警告医生和公众不要轻易接受没有以令人信服的方式得到重复的医学检验结果。在一项研究中,他考察了从1990年到2003年的45项备受尊重的医学研究,这些研究自称证明了对于各种疾病的有效疗法。其中,只有34项实验被人用规模更大的样本进行了检验,以复制初始检验结果。在这34项研究中,只有20项研究证实了初始结果(59%)。在7种疗法中,重新检验得到的效果比最初的预测小得多;另外7种疗法的重新检验没有产生任何效果。总体而言,在45项研究中,只有20项研究得到了复制,而且这还是最受人尊重的研究!就在约安尼季斯发表这些令人不安的结果的同一年,他还写了另一篇文章,文章的标题很不讨好,叫做“为什么大多数得到发表的研究结果都是错误的”。
另一种获得统计显著性的方法是利用数据发现理论。统计检验的假设是,研究人员首先提出一种理论,然后收集数据,以检验这种理论,然后汇报结果——这种结果可能具有统计显著性,也可能不具有显著性。许多人颠倒了这种程序,他们仔细研究数据,以发现某种模式,然后编造出符合这种模式的理论。在数据中搜寻模式的过程令人愉快,而且激动人心,就像玩数独或者解决神秘谋杀案一样。这些人从各个角度考察数据,将数据分解成基于性别、年龄和种族的类别,丢掉妨碍模式的数据,寻找任何有趣的现象。当他们发现某种模式时,他们开始思考其中的原因。
当研究人员钻研数据、寻找模式时,他们会进行数百次显性或隐性检验。你可以站在他们的立场上进行考虑。首先,你将数据作为一个整体进行考察。然后,你分别查看男性和女性的数据。接着,你将儿童和成年人的数据区分开;然后将儿童、青少年和成年人的数据区分开;然后将儿童、青少年、成年人和老年人的数据区分开。接着,你尝试不同的年龄界限。你将老年人的范围设置为65岁以上。当这种做法失败时,你将这个数字调整为55岁、60岁、70岁或者75岁。最终,你总会发现某种模式。即使研究人员不对数据的每一种排列进行正式的统计检验,他们也可以进行非正式检验,即寻找看上去具有统计显著性的数据排列。如果我们知道研究人员在公布结果之前以一百种不同的方式对数据进行了考察,我们一定会抱着怀疑的态度看待这些结果。
这些做法——选择性报告和数据搜刮——被称为数据挖掘。通过数据挖掘发现的统计显著性只能体现出研究人员的耐心。在独立检验证实或拒绝结论之前,我们无法判断某种数据挖掘马拉松到底证明了某种实用理论的有效性还是研究人员坚定的毅力。不过,通常情况下,这类检验并不会被人验证。毕竟,你无法通过证实他人的研究而成为明星;所以,为什么不把时间用于发现新理论呢?因此,通过数据挖掘得出的理论看上去很安全,既不会受到检验,也不会受到质疑。
许多重要的科学理论的确是人们为了解释他们所发现的模式而提出来的。例如,在19世纪,大多数生物学家认为,亲代性状的平均值决定了后代性状。例如,孩子的身高是由父母身高的平均值决定的,同时也可能受到环境的影响。
奥地利修士格雷戈尔·孟德尔(Gregor Mendel)在8年时间里对几万株豌豆进行了细致的研究。他对一些不同性状进行了考察,认为当时的混合理论是说不通的。当他对绿色种子的植株和黄色种子的植株进行异花授粉时,后代的种子要么是绿色的,要么是黄色的,没有黄绿色的种子。当他对圆粒种子植株和皱粒种子植株进行异花授粉时,后代的种子要么是圆粒的,要么是皱粒的,没有处于两者之间的种子。为了解释这些实验结果,孟德尔提出了“孟德尔遗传定律”,这个优雅的概率模型解释了性状的代际传递以及偶尔发生的隔代传递。他构造出了一种与数据相符的理论,为现代遗传学奠定了基础。
不过,数据挖掘还导致了数千种胡诌理论。我们如何区分正确理论与胡诌之间的区别?有两种有效的良方:常识和新数据。如果某种理论听起来很可笑,那么在看到压倒性的证据之前,我们绝不应该轻信这种理论;即使看到了压倒性的证据,我们也应当保持怀疑的态度。不同寻常的说法需要不同寻常的证据。遗憾的是,在这个年代,常识是一种稀缺品,许多诚实的研究人员用严肃的语气提出了一些愚蠢的理论。你知道吗?有人认为入选名人堂会使棒球选手的寿命预期减少五年。还有人认为一些中国人由于出生在“火年”而死于心脏病。本书稍后会对这些例子进行介绍。
第二种良方是新数据。当你通过搜刮数据编造出了某种理论时,用同样的数据对这种理论进行检验是一种不明智的做法。既然你编造这种理论是为了迎合数据,那么这些数据当然会支持这种理论!应当使用没有被数据挖掘所污染的新数据对理论进行检验。
当你用新数据检验通过数据挖掘形成的理论时,得到的结果常常令人失望,这是意料之中的事情。用启发某种理论的数据对这种理论进行检验的做法显然具有误导性。如果某种理论对新数据的匹配程度不像原始数据那么好,这显然并不奇怪。
举个例子。我刚刚用左手小指弹开了桌子上的一枚25美分硬币,硬币落地时背面朝上。看到这一结果,我得出了一种理论:如果我用左手小指将桌子上的25美分硬币弹开,那么它在落地时总会背面朝上。毕竟,我的数据可以支持这种理论。这种理论显然愚蠢而毫无用处,但我们在后面几章将要详细考察的一些理论也是如此,这些理论虽然不那么容易被看穿,但它们与我的弹硬币理论具有相同的推导方式。如果死于癌症的孩子生活在输电线附近,那么输电线的电磁场(EMF)一定是导致癌症的元凶,不是吗?如果某种理论看上去比较合理,而你又不知道这种理论是通过观察数据得到的——比如观察地板上的硬币——那么你很容易不假思索地认为与数据相符的理论一定是正确的。毕竟,这种理论能够得到数据的证明!这是你应当抗拒的几种冲动之一。
幸运的是,我们能够抗拒这种冲动。我们能够克服我们的远古祖先在生存和繁衍的斗争中形成的偏好。我们可以摆脱数据的欺骗。
×如何轻松识破一本正经地胡说八道
我们通常倾向于寻找模式并且相信我们所观察到的模式是有意义的。如果棒球选手在穿上新袜子以后在比赛中表现出色,那么他不应该换袜子。如果股票市场在NFC球队赢得超级碗以后表现出色,那么你应该首先观看比赛,然后再去投资。如果篮球选手连续四次投篮命中,这说明他的状态很好,很有可能在下次投篮时命中。如果心脏病患者在1600公里以外的人发送治疗意念以后恢复正常,这说明远距离治疗是有效的。如果一项顾客满意度调查发现家里拥有三间浴室的人比家里拥有两间浴室的人更加热情,这说明前者才是企业的目标市场。如果一个国家在联邦债务很高时发生了衰退,这说明政府债务导致了衰退。在这本书中,我们将对几十个类似的例子进行反驳。
不要天真地认为模式就是证据。我们需要一个符合逻辑、具有说服力的解释,并且需要用新数据对这种解释进行检验。