关于 康纳曼
康纳曼的父母是立陶宛犹太教人,1920年代初移民到法国。1934年,他的母亲到特拉维夫探亲时生下他。他小时候跟家人住在巴黎,父亲是一家大化学厂的研究主管,事业做得不错。
在他为诺贝尔经济学奖提交的自传中,康纳曼提到,成长于纳粹德国占领期间的法国,身为犹太人的童年,以及常常听到父母与朋友之间的闲聊,让他从小对人的复杂性就有了概念,或许就是这种经历让他对心理学产生了兴趣。
当时,法国犹太人跟其他德国占领区的犹太人一样被送进集中营,死在集中营。康纳曼的父亲有一次被捕,德国人竟以为抓错人,把他放走;康纳曼自己有一次违反宵禁,德国亲卫队员以为他不是犹太小孩,不但开车载他回家,亲切搂抱后,拿出自己小孩的照片给他看,还给他一些零用钱。回到家后,他对母亲曾说过的「人性既复杂又有趣,永远无解」,有了一番体悟。
从小脑筋发达、四肢简单的康纳曼,体育课的表现简直不忍卒睹。1946年他读8年级时,体育老师拒绝让他登上荣誉榜,理由是「老师做人再好,也是有限度的」。他小时候有一本写文章的笔记本,封面题上「思绪随笔」(康纳曼现在想到自己小时候这么自大还会脸红呢)。第一篇文章是他在快满11岁时写的,内容谈到信仰,还引用哲学家巴斯卡 (Pascal) 的名言:「信仰是心之所见的上帝。」接着写到,「心中要看到上帝,可能很难体验,也非时时灵光,因此人们创造出教堂与管风琴音乐,让信仰所带来的兴奋感有更可靠的来源。」写这段话的小孩,对心理学还真有点天分。
搬到巴勒斯坦后,康纳曼的生活彻底改变,原因之一是他重读八年级,不再是班上年纪最小、体力最差的人,而且也交了朋友。他找到更好玩的消遣,不再只是躲起来写文章。到了高中,康纳曼从学术上获得很多乐趣,这是因为老师教导有方,同侪也志同道合,他很享受融入群体的感觉。
17岁时,因为日后必须服兵役,康纳曼做了几个决定。他打算申请可以延缓服役、先完成学位的单位,这表示他暑假必须到军官学校受训,服役内容也必须跟所学专长有关(参阅本书第18章)。当时,他已经决定要当心理学家,但过程并非没有挣扎。他青少年时感兴趣的问题,像是人生的意义、上帝的存在、不捣蛋的理由等等,都属于哲学问题。但他后来发现,相较于上帝存在与否,他更感兴趣的是,什么原因让人相信上帝存在;相较于自己对道德的看法,他更感到好奇的是,是什么原因让人对是非对错有所坚持。康纳曼接受职涯咨询后,心理学成为推荐选项的第一名,经济学则排名第二。
康纳曼1954年在耶路撒冷希伯来大学取得心理学学士学位后,加入以色列国防军服役,退伍后到加州大学柏克莱分校取得心理学博士学位。1961-1978年在希伯来大学心理学系任教期间,他遇到了一生的合作伙伴──特维斯基 (Amos Tversky) 教授,开启了一段辉煌的学术生涯。
康纳曼和特维斯基几乎形影不离,时常漫步在希伯来大学的草地上,坐在小咖啡馆里,或在他俩共同的办公室喝着咖啡,他们总是在交谈,谈论他们共同研究的问题。即使后来特维斯基至史丹佛大学及康纳曼至加拿大英属哥伦比亚大学任教,两人每天还是热线不断。他们共同奋斗,建立了一套解释人们在危险和不确定的情况下如何做出判断及决定的理论,与几位先驱者一同创立了行为经济学。
2002年,康纳曼与开创实验经济学的史密斯 (Vernon L. Smith) 教授共同获颁诺贝尔经济学奖。康纳曼的贡献在于,「通过心理实验研究证明『经济决策的过程是理性的』假设不能成立,把心理学成果与经济学研究有效结合,进而解释了人类在不确定条件下如何做出判断」。但康纳曼却认为自己是心理学家,而不是经济学家。
当他得知自己获奖后,十分激动,竟把自己反锁在屋外,后来不得不破窗而入。他说,「得奖是对行为经济学研究者的肯定」,在高兴之余,他「还有一点伤感」,因为他长期的研究伙伴特维斯基因罹患皮肤癌,59岁即辞世。他说,「这个奖不颁给已经去世的人,要不然1996年去世的特维斯基博士也应该分享这份荣誉。我觉得这个奖是我俩一起得的。」当被问到如何运用这50万美元的奖金时,康纳曼说,「年龄愈大,就愈能做出明智的投资决策,我现在的年纪可以让我大赚一笔。」
资料来源:MBA智库百科、Nobelprize.org
各方推荐
集数十年的心理学研究于大成,诺贝尔经济学奖得主康纳曼将心得化为文字,带领读者探索人类思维究竟受何影响,例证说明丰富精采,文中有时会出现像「呕吐与香蕉」的文字搭配,令人拍案。系统一与系统二分别代表大脑的快思与慢想,在书中化身成两个人物,借以说明人类为何会有不懂却以为懂的心理,像直觉就是一例。康纳曼在处理主题上清楚而仔细,这本书有可能会改变人类的思维方式,甚至是我们过生活的方式。《快思慢想》洞察人类内在思维,探讨我们在反应、判断、辨认、选择,或是做出结论时,心中早有偏见。全书剖析深入,读到某些研究发现,更让人有惊竦之感。──Amazon.com 2011年11月选书书评
康纳曼的新作《快思慢想》是他最平易近人的一本书,内容除了厘清经济学与理性的关系之外,更深入探讨我们平常思考、反应、下结论的方法,其中,误判的可预测性,是他最感兴趣的一环。本书举出许多在日常生活避免偏见的方法,例如「先找到你可能会误判的迹象,然后放慢脚步,强化脑中的慢想系统。」下次有亲戚大谈股票或欧巴马时,我心里头会想:他是真懂,还是直觉反应罢了?读完本书,我对思考这回事完全改观,如此收获不可谓不大。──美国《商业周刊》书评 鲁文斯基Roger Lowenstein
内容极为丰富的一本书:论点清楚、学识渊博,充满让人意想不到的新知,也有让人自我成长的启示。全书读来引人入胜,时有动人的段落,尤其是康纳曼回忆与特维斯基共事的那段时光。书中指出人类理性的缺陷,相当具说服力,《纽约时报》专栏作家布鲁克斯 (David Brooks) 日前表示,康纳曼与特维斯基两人的研究「将流传到未来几百年」,而且是「人类自我认识的转捩点」。布鲁克斯说,他们两人是探索人类心智的最佳拍档。读完《快思慢想》,我原本的怀疑态度早已消失,取而代之的是参与一场知识飨宴的满足感。若以「顶峰-结尾」规则来评价这本书,我会信心满满地请大家去买来阅读。但如果你只是想知道他对葛拉威尔 (Malcolm Gladwell) 的见解,我的看法如下:「如果你已经在可预测、有快速回馈的环境里完成1万个小时的训练,例如西洋棋高手、救火队队员、麻醉医生等等,那就诉诸直觉吧。如果没有,请三思而后行。」──《纽约时报》书评
从康纳曼的新作《快思慢想》可深刻体悟到,人类容易诉诸非理性思考,碍于根深蒂固的偏见,再三做出不合理的选择。看完本书,你可能会对所谓的专家改观,像是明星执行长、体育记者、经济学家、专业投资人以及畅销作家并不如我们想像中厉害。读完本书,你的决策能力会改善吗?我希望可以,但尽管书中提供了一些自我成长的建议,康纳曼对人类自我提升的能力存疑,他也怀疑自己会更上一层楼。套句他的话说:「找别人的错误,我有长足的进步;找自己的错误,我还是当局者迷。」──Ideas Market部落格及《华尔街日报》专栏作家 席亚Christopher Shea
序 以理性研究不理性行为的认知科学
◎曾志朗(中研院院士)
毋庸置疑,这是一本非常棒的书,作者康纳曼也因为这书里所提到的概念和所描述的精巧实验的结果,得到了诺贝尔经济奖。书才出版,就登上《纽约时报》2011年的最佳畅销书之列,而且来自不同科学领域的学者,持续不断的写出赞美之语。为什么大家对这本书会有如此不同凡响的美誉呢?我个人认为康纳曼用简而易明的科学论述,加上实验的佐证,不但让一般读者从自身的生活经验里的「不合理」中,找到「合理」的解释,而且也让不同领域的学者(尤其是哲学和分析心理学),看到了尼采的人性黑洞和佛洛依德的行为暗流,是可能在科学的明镜之下,有了一道又一道可解的曙光。
康纳曼成名很早,1960年代末期,他和亦师亦友的研究伙伴特维斯基发表了一系列很重要的著作,针对数据 (Data) 中的「数」如何代表不同测量的「质」和「量」有很多突破性的说明,例如邮政区号是数字,所以不同的区号有地点的区辨力,但这些数字不可以拿来加、减、乘、除的;又如温度也是以数字代表,但摄氏零度到10度的温差,和摄氏20度到30度的温差,虽然都是10度,但意义完全不同,必须依附在心理物理学 (Psychophysics) 的感觉量表上,才有意义!这些对数字所代表的涵义之说明和他们两人对测量所建构的数学模式,对社会科学和生物实验的测量,非常重要,为测量的研究领域开拓了一扇全新的门路。
从这些研究中,特维斯基和康纳曼也看到了科学家即使接受了严格逻辑训练也常常和一般人一样,犯了很多不理性的逻辑推论。例如,他们也相信小样本的证据,忘记了小样本的结果是很不稳定的。尤其是一两个特例刚好符合自己相信的学说时,就不顾一切地拥戴特例,犯了以偏概全的毛病而不自知。他们归纳了这种种的不理性行为,得到一个结论:即人的认知错觉,源自于许多经验中的「捷径」直觉思绪 (heuristics),而把解题应有的演算法则 (algorithm) 抛到一边去了。
这种「屈指算来」(Rule-of-Thumb) 的直觉思维方式,表现在许多必须即时回应的情况里。其中包括了「第一印象,以貌取人」的谬误;还有「锚点」是大是小,所引起的高估或低估之谬误;另外,以「看似」当作「确认」的谬误,更是常见;最后,重视「想得到的」而忽略「想不起来」的错误判定,在生活上的事例,更是比比皆是!这些最早的研究对认知科学的发展,有巨大的影响,不但在心理学界引起注目,更撼动了经济学界传统的理性思考!继赛蒙 (Herbert Simon)(另一位获得诺贝尔经济奖的心理学家)的「组织里的非组织行为」,康纳曼和特维斯基的捷径直觉思维,更让经济行为的研究,有了新的方向!
这是1980年之前的研究,那时候康纳曼和特维斯基都回到以色列,为犹太建国而努力。康纳曼在那里和来访的英国牛津大学女教授安.特瑞斯曼(Anne Triesmen,一位非常了不起的认知心理科学家,是英国皇家学院院士,也是美国国家科学院院士)结婚,决定应聘到加拿大英属哥伦比大亚大学任教,后来又辗转至美国加州大学柏克莱分校任教,而特维斯基也回到美国,到加州的史丹佛大学任教。两人在湾桥 (bay bridge) 的一北一南,合作无间,把捷径思维的型态和其产生的脉络,做了更深入的分析。这些发展都有写在这本书前几章的历史回顾中。
很不幸地,特维斯基在史丹佛大学,忽然重病过世,对康纳曼的打击颇大。有一段时间,他不再谈捷径直觉了,而转和太太Anne合作起注意力的研究。Anne本来就是这个领域最重要的研究者,她的「注意力特征学说」(feature theory of attention) 是当代最主要的注意力理论,而康纳曼很早的博士论文也是以注意力为主题的研究,他对注意力的看法是从「自动化」和「需动用心力」两个向度的对立切入,对心力的资源分配,有了很精确的模式,和Anne的学说刚好相辅相成。就在那个时候,我还在加州大学河滨分校任教,也在研究「不注意事件的语意处理」,从生物觅食的行为去探讨「地区特定的抑制现象」(location-specific inhibition)。康纳曼和Anne在实验心理学年会中,听到了我的报告,就来到我的实验室参观。当晚住在我们家,聊台湾、中国、以色列、巴勒斯坦的种种问题,都是我们个人无法解决,却必须承担的民族宿命。康纳曼和Anne邀我去他们实验室作场演讲,我就去了一趟柏克莱,演讲完就住在他们在奥克兰 (Oakland) 山上的大房子。又聊起学术,也谈到他回到以色列的经验。也许就在那一夜的谈话中,植下了我几年之后束装回台湾,想为家乡尽一份心力的意念吧!
他们的房子很漂亮,但夏天的一场大火,在焚风不停的情况下,庭院被烈火烧去一大半。房子虽然没有毁损,Anne却吓坏了,不敢留在干燥的加州,就双双应聘到东部的普林斯顿大学去任教了。Anne继续她的注意力研究,康纳曼也走出了挚友过世的阴影,把人的决策行为在理论的架构上,铺陈得更为完整,实验的证据也愈来愈丰富,双系统的思维理论终于完成。对于快速的捷径直觉系统,和慢条斯里的演算法则推论,也有了生物演化的种种论述。这些在书里都写得很详细,所举的案例,都是你我生活所见所闻,读起来特别亲切,也常常令我会心一笑!这真是一本好书!
最后我也要告诉读者,这个双系统的思维运作方式,最近也得到脑神经研究的证实,而功能性脑显影所呈现的证据,就来自我实验室的郭文瑞教授所作的研究,发表在《科学》(Science) 期刊上,很棒吧!
导读 掌握思考,使你拥有无憾的人生
◎洪兰
这是我回台后翻译的第五十一本书,我从来没有翻译任何一本书像翻这本书这样快乐,也从来没有像翻译这本书一样,后悔自己不会中文打字,要逐字的写。我的原子笔心是论打去买的,不知写掉多少枝,我一早爬起来,就坐在桌子前面写,六亲不认,猫咪绕着我的脚一直转,也无暇理牠,迫不及待想把它译完,介绍给读者看。
作者的睿智深深吸引了我,他做的实验都很简单,却有力地证明了人不是理性的动物,很容易被直觉和偏见诱导去犯错。其实,这本书中所说的决策错误,我都犯过,比如说,因为非常喜欢这本书,就完全忽略掉它是厚厚一大本,三十多万字,签合约时,没有给自己多一点时间,到后来赶得不得了,勤奋程度只有当年大学联考可以比。幸好to err is human,人本来就会犯错,只要从错误中汲取教训,不再犯第二次错就好了。相信看过这本书的人在做决策时,一定会避开系统一的陷阱,使自己成为更有智慧的人。
康纳曼和特维斯基的合作奠定了他拿诺贝尔奖的基础,特维斯基却在他得奖之前过世了,这是他一直引以为憾的事。在书中,处处可见他对特维斯基的推崇。孔子说「友直、友谅、友多闻」,其实朋友的重要性还不止于此,我们初识一个人时,不知他的人品如何,但是只要看他的朋友是谁就知道了,所谓「物以类聚」,这揣测通常是八九不离十的。好朋友决定你一生的成败,康纳曼自己说,没有特维斯基,就没有这个诺贝尔奖,朋友的重要性由此可知,人真的是互相影响的。
康纳曼是传统心理学训练出来的认知心理学家,他在1973年所写的《注意力和努力》(Attention and Effort) 是我念研究所时的教科书,也是我后来出来教书时的教科书,他那时已是非常有名的认知心理学家,但是他毫不犹疑地拜比他小三岁的特维斯基为师,因为特维斯基有的是他所缺的数学心理学专业。韩愈说「闻道有先后,术业有专攻」,这句话真是没错,他们两人一拍即合,从此开始合作,在早期还没有团队的概念出来,所有的论文都是尽量单一作者,以免论文的份量被稀释,他们两人却一直都是合作无间,不理外面人家说谁是leader、谁是follower,当然,他们会开风气之先也跟当时的心理学界的气氛有关。
从上个世纪初,心理学家就一直想用硬科学 (hard science) 的实验方法把心理学带进科学的领域,摆脱早期心理学给人那种非科学的印象。我在耶鲁大学哈斯金实验室做博士后研究员时,实验室主任利伯曼教授(Alvin Liberman,他也是美国国家科学院的院士)就说,愈不是科学领域的学门愈是想得到科学的头衔:政治学明明是讲权谋的学门,却叫Political Science,图书馆学叫做Library Science,最离谱的是社会科学叫做Social Science,社会是人的集合,人是天下最说不准的动物,哪有一致性可言?所以,当时可以准确测量的行为主义、心理物理学很盛行,大家都希望能找出可准确预测人类行为的方式。康纳曼他们想用数学公式找出人类做决策的内在机制,验证传统经济学中,人是理性的核心假设,他们的努力把经济学和心理学联结在一起,开创了这个新领域。
实验心理学家对科学最大的贡献就是做实验,我们懂得如何去除混淆变项 (confounding variable),使实验结果干净可用。以前我们上实验法 (methodology) 时,老师就一再告诫「这是你们将来吃饭的家伙,要好好学」,实验法不及格就当掉了,有点像医学院的病理学,考不及格便无法升级。如果这门课修得很扎实,它的确可以帮助我们马上看到新实验有漏洞。前一阵子有人说母乳可以增加孩子的智商,报纸大大宣传了一番。但是仔细一看,实验者并未控制基因和后天环境这两个对智商有大影响的变项。因此这个实验必须重做,他们找了332对来自同一家庭的孩子,如果一个吃母乳,另一个就是吃牛乳,一比较起来,现象消失,立刻破解了迷思。其实孩子要的是关怀,只要有营养,吃什么没有那么大的关系,父母不需要花双倍的钱去买益智奶粉,因为根本没有这种东西。
这本书中的实验个个都像母乳实验一样,一发表出来就打破迷思,非常的精采,尤其是康纳曼心胸宽大,对打击他的人,不出恶言,还邀他一起做研究,两人各自从自己的观点出发合写一篇论文,共同发表。这当然是非常辛苦的事,但是它的确是消弭成见最好的方法。国内常有学者打笔战,或鄙视另外一派的成就,这种一山难容二虎的心态,令人不敢恭维。这本书对年轻学者来说,也是一个很好的榜样,看看别人的风范,想想自己的行为,能不惭愧乎?
这本书书名叫《快思慢想》(Thinking,Fast And Slow),主要是因为我们有两个系统在主宰着我们的思考与决策,只是自己不自觉而已。快的叫做系统一,就是各种直觉的思考,它是整个自动化的心智活动,包括知觉和记忆,康纳曼说「直觉就是辨识,不多也不少」;慢的他把它叫做系统二,是要花力气去思考的,通常在系统一失败后,系统二才会上场。系统二其实就是「你」,套句佛洛依德的名词就是ego,而系统一是id,它在你不自觉的情况下主宰着你的选择和判断,这些心智活动当然有上限,所以人会犯错。但是若能把统计知识加进去,它就迫使你在思考时,同时考虑很多讯息,这时系统一只好退位,因为它天生就不是设计来做这种事的。在统计数据的帮忙下,逻辑的思考就使我们能做出较正确的判断,这时的你就是佛洛依德的super ego了。
我在翻译这本书时,觉得很有趣,因为社会心理学和认知心理学一向都是水火不相容,想不到,以数学公式为核心的数学心理学家和专门研究注意力的认知心理学家在探讨认知领域的「思考」时,会得出社会心理学的本我、自我和超我三个概念出来。知识是相通的,没有任何一个例子比这本书更有说服力了。
书中的各种效应,如框架效应、锚点效应、小数效应每天都在生活上看到。的确,同样一件事,换个说法民众就较能接受。台中监狱附近的居民拉白布条不要法务部在旁盖性侵治疗所,美牛案闹了那么久,耗损了不知多少国力,这些都是书中的好例子,法务部和卫生署的官员们应该来看看这本书。这本书对所有社会科学领域的人都会有用,绝对不只是经济学家和心理学家而已。
沟通是个艺术,但是沟通不只是艺术,它更是智慧,好的沟通者一定要知道人的心理,尤其是系统一的本质,因为系统一是直觉的,我们只有在系统一走不通时,才会劳驾系统二,所谓「閰王好见,小鬼难缠」,如果系统一放行,后面就没事了。书中举了一个例子:奥地利和德国是同文同种,但是在器官捐赠上,奥地利的捐赠率几乎是百分之百,而德国只有12%;瑞典和丹麦都属于北欧语系,文化和人种也相似,丹麦还被瑞典统治过,但是瑞典的捐赠率是86%,而丹麦只有4%。追究原因,原来表格的设计不同,高器官捐赠国家的表格是你不想捐,请在格子中打勾,不然假设你愿意捐;低器官捐赠的国家表格是你必须在格子中打勾,你才会成为捐赠者,就这么一点点的差异,造成捐赠率这么大的差别。人真是个说不准的动物,谁会想到表格勾选的方式会造成完全不同的结果。执政者在民怨这么高时,应该好好的来看一下这本书,检讨一下为什么做了半天,老百姓不但「无感」,还「怒感」。
我们常感叹人老得太快,成熟得太慢,等累积到人生的智慧时,人生已过去了。其实不必悲观,良书益友就是成熟的催化剂,这本书更是其中的翘楚,阅读它使你拥有智慧无憾的人生。
前言
每一个作者在自己心中都会设定一个情景,让读者在读这本书时,能够从中获益。我的场景则是一个办公室的茶水间,大家来倒茶水时,交换一下意见或聊聊八卦。我希望在人们谈论公司的新政策、别人的判断,或同事的投资决定时,能够因为这本书而丰富他们的词汇。
我们为什么要在乎闲聊?因为我们在闲聊时,指出别人的错误并且贴上标签,远比看出自己的错误容易。我们不吝指出别人的错误,但如果要你质疑自己的信念,问自己到底想要什么,则非常困难,特别是你不得不这么做的时候,如果别人愿意提供有见地的意见,我们可以获益良多。我们面临选择时,很自然地会想知道朋友或同事的意见,所以,他们的评断是好是坏、内容如何是重要的。别人闲聊时所提供的明智见解,是我们自我检讨的强大动机,比我们在新年时立下志愿要改善工作和家庭的关系更为有效。
如果一个医师要做出正确诊断,这医师需要知道很多疾病的名称、有何症状、发病原因、发展的过程、疾病的后果,以及治疗的方法。学医有一部分就是学习医学的语言,各种专用的名词。要深入了解判断并做选择,也需要比日常生活丰富的专业名词。有些闲聊可让我们增广见闻,因为我们的思考往往会出现独特的错误型态。系统化错误就是偏见 (bias),我们可以预期偏见在哪些特别的情况下重复出现。例如,当一个英俊、有自信的演讲者跳上讲台时,你可以预期听众会对他的演讲内容给予比较高的分数(比他实际应得的更高)──这叫做「月晕效应」(halo effect),这个标签让我们更容易预期、辨识并了解。
当人家问你在想什么时,你通常都能回答,你认为你知道自己心中在想什么,通常是一个有意识的念头带到另外一个有意识的念头,按照顺序,接连出现。但是这不是心智唯一的作用方式,也不是典型的作用方式。大部分时候,你意识经验中的印象和思想,你根本不知道是怎么跑到你心里去的。你无法追踪出,你怎么知道书桌前面有一盏台灯;或你从电话中察觉到配偶的声音带有一丝不快;或是你如何在自己觉识到之前,就已闪避路上的危险。这些印象、直觉,和许多决策历程的产生,在我们心中是无声进行的。
这本书很大一部分在讨论直觉的偏见。然而,我把焦点放在错误上,并没有贬低人类智慧的意思,就好像在医学教科书上提到某个疾病,并没有否认健康的意思一样。我们大部分人在大部分时间是健康的,我们大部分的判断和行为也是恰当的。人一生中,通常是遵循我们的印象和感觉,我们平常对自己的直觉和偏好所做的选择也往往是对的,但并非永远都对,或全部都对。有时我们是错的,但是我们仍然很有信心。所谓当局者迷,别人客观的看法经常可以指出我们的错误。
这就是我对茶水间聊天的目的:可以增进我们的洞察力,看到并了解他人的判断和选择出现什么错误,进而了解到自己所犯的错误在哪里,提供比较丰富而准确的语言来讨论这些偏见。至少在一些情况中,正确的诊断可以找到恰当方式来减少错误的判断和选择所带来的伤害。
源起
这本书是我目前对判断和决策制定的看法。我的看法受到心理学最近几十年来研究的影响,不过我可以把源头追溯到1969年幸运的那一天。那天,我请我在希伯莱大学心理系的同事特维斯基到我研究所开的专题讨论课做个演讲。特维斯基被公认为决策领域的明日之星,他的确非常的耀眼,所以我知道这堂课会很精采。认识特维斯基的人都认为他是天底下最聪明的人,他真的是非常聪明,能言善道,很有魅力。他有着很好的记忆力,能够记住很多笑话,在恰当的时机画龙点睛地用出来,只要他在场,就不会有冷场。那时他三十二岁,我三十五岁。
特维斯基跟学生谈他在密西根大学正在进行的一个研究:人是好的直觉统计学家 (intuitive statisticians) 吗?我们已经知道,人是很好的直觉文法学家:一个四岁的孩子能毫不费力地说出文法正确的句子来,虽然他完全不知道文法的规则是什么。人对基本的统计规则也有同样的直觉吗?特维斯基说,「是」。我们在课堂上辩论得非常热烈,最后下了结论:「否」可能是比较好的答案。
特维斯基和我非常喜欢这样的交锋辩论,我们都认为直觉的统计会是一个很有趣的题目,很值得我们两人一起去探讨。那个星期五,我们在耶路撒冷的雷蒙咖啡馆 (Cafe Rimon) 一起吃午餐,这个地方是波希米亚人和教授们很喜欢去的地方。我们计划了一个研究,想看看资深研究人员的统计直觉如何。我们已从专题讨论上得到一个共识,即人的直觉是有缺陷的,虽然多年来教统计学和用统计来分析资料,我们并未发展出对小样本群统计结果是否具可靠性的直觉。我们主观的判断是有偏差的,我们太愿意相信控制不好的实验所得到的研究结果,在我们自己的实验中,也倾向于搜集几个观察就下结论[1]。我们研究的目的是去看其他研究者是否也有同样的毛病。
我们准备了一份调查问卷,包括在做研究时会遇到与统计有关的真实情境,然后在数学心理学 (mathematical psychology) 年会时,拿去给与会的专家做,包括两本统计学教科书的作者。正如我们所预期的,我们发现这些专家跟我们一样,也会夸大小样本群的实验结果,认为它一定可以成功被复制[2]。他们对问卷中,虚拟的研究生请教有关人数问题(即需搜集多少人的观察,实验才会有效)也回答得不好。即使是统计学家对统计的直觉也不好。
当我们把这研究写成报告时,特维斯基和我发现,我们很喜欢在一起工作,特维斯基总是非常幽默,跟他在一起,我也变得很幽默。虽然花很长的时间在工作,却工作得很愉快,一起工作的愉悦使我们变得异常有耐性。假如你不觉得无聊,你就容易投入更多的时间和精力,使工作尽善尽美。或许更重要的是,我们俩在进门前,就把批评的武器交付门房收起来了[3]。特维斯基和我都非常会批评人,也很爱辩论,他恐怕比我还厉害,但是在我们这么多年的合作中,我们从来没有马上否决对方的提案。的确,我发现跟特维斯基合作最大的快乐之一,就是有时当我的想法还很模糊,特维斯基往往看得比我自己还清楚,他是非常好的逻辑思考者,凡事会朝理论去想,而且有非常好的方向感;我比较直觉,而且屡屡从「知觉心理学」(psychology of perception) 的观点去看问题,我们也的确从知觉心理学中借了很多点子。我们的同质性很高,所以彼此有默契,互相了解,但是我们又有很多地方不同,常常会使对方惊讶。我们发展出一个一起工作的例行方式,通常是散很长的步,边走边谈。往后十四年的合作,成为我们生活的重心,那些年我们所做的研究,可说是毕生研究的精华。
我们很快采取了一个持续多年的工作方式:研究对话,并从中设计问题,然后一起来看我们的直觉答案。每一个问题常是一个很小的实验,我们通常在一天之内就做完很多实验,我们不是真的很严肃去寻找我们提出问题的答案,我们的目标是去辨认和分析从直觉而生的答案,即第一个进入我们心中的答案。尽管我们明知它是错的,我们还是很想要说出来的答案。我们认为,任何我们两人都有的直觉,别人也一定会有,我们可以很容易用判断来显现这个效应。
有一次我们很高兴地发现,我们对彼此都认识的一些孩子将来的职业有同样的傻念头,我们可以指出,哪个好辩的三岁孩子将来可能是律师,哪个会是宅男教授,哪个富同情心、又喜欢介入的孩子会是心理治疗师[4]。当然,这些预测是不合理的,但是我们还是认为它很有意思,很吸引我们。我们发现,人的直觉是受到各行各业文化样板形象的规范。这个好笑的练习使我们逐渐形成一个理论,关于相似性对预测的影响。我们做了几十个实验去测试和修正这个理论,下面就是个例子。
当你在考虑这个问题时,请假设史提夫是从一个有代表性的样本群中,随机取样出来的人。
有一个人被他的邻居描述为:「史提夫是个很害羞、不大方的人,他很愿意帮忙,但是对人或真实世界没什么兴趣。他是个温和整洁的人,他喜欢秩序和结构,对细节非常执着。请问,史提夫比较可能是图书馆员,还是农夫?
史提夫的人格跟图书馆员的样板形象很相似,但是我们常忽略了相关的统计。你知道在美国男性人口中,农夫人数是图书馆员的20倍以上。因为农夫比图书馆员多得多,所以你几乎可以确定这个温和爱整洁的人是坐在耕耘机后面,而不是坐在图书馆询问桌后面。然而,我们发现受试者会忽略相关的统计资料,只是注意角色的相似性,我们认为,他们用这个相似性做为一个简单捷径 (simplifying heuristic)(即经验法则),来做出困难的判断。对这个捷径的依赖,造成他们的预测出现了可预测的偏见(即系统化的错误)。
在另外一个场合,特维斯基跟我对学校中教授们的离婚率感兴趣。我们注意到,这个问题启动了我们搜寻记忆中,认识或听说过的离婚教授,我们借着这些离婚案例进入脑海的容易度来判断这个类别有多大,我们把这个依赖记忆搜寻的容易度叫做可用性捷径 (availability heuristic)。在一个研究中,我们请受访者回答一个简单的问题:
在英文字母中,K比较可能出现在单字的第一个字母,还是第三个字母?
任何一个字谜玩家都知道,你很容易想到某个字母开头的字,但是你不容易想到同样这个字母出现在第三个位置的字,英文字母中每一个字母皆是如此。所以我们预期选K开头的人会比较多,虽然事实上在英文中,K、L、N、R、V更常出现在单字的第三个位置。这又是一个依赖捷径所造成可预期的偏见错误判断。我最近开始怀疑,我长久以来一直认为政客的通奸情形比医生和律师多的看法可能是错的。我以前甚至对这个「事实」有个解释,我认为它是「权力是春药」这个效应和政客在外的诱惑比较多的结果。我后来发现,政客出轨容易被记者揭露,而医生和律师比较不会。我直觉的印象可能完全来自记者的议题选择,而我却依赖可用性捷径,才会发生这个错误判断。
特维斯基和我花了好几年来研究和记录各种作业的直觉思考偏见。我们给事件不同的机率,预测它的未来,评估假设,估计它的频率。在我们合作第五年时,我们在《科学》(Sicence) 期刊上发表成果。这个权威的期刊是许多不同领域的学者都会读的。这篇文章[5] 题目为〈在不确定情况下的判断:捷径和偏见〉(Judgment Under Uncertainty:Heuristics and Biases)。它描述简化的直觉思考捷径,解释这种捷径造成的二十个偏见,同时也显现捷径在判断中扮演的角色。
科学史专家常常注意到,在某一个特定时间,在某特定领域的学者倾向把他们的基本假设跟别人分享。社会科学家也不例外。他们依赖人性的观点,这种观点为大部分特定行为的讨论提供了背景知识,却很少被质疑。在1970年代,社会科学家接受了两个人性看法,第一:人是理性的,他们的思考大致是有理智的;第二:恐惧、情意和仇恨等情绪解释了在大多数情况下,人为什么会失去理性。我们的文章挑战了这两个假设。我们记录了一般正常人思考的系统化错误,并且追溯这些错误的根源是认知机制的设计,而不是情绪造成的思考偏差。
这篇文章吸引了很多人的注意,远比我们想像的多。一直到现在,它仍是社会科学领域中,被引用最多的一篇论文(在2010年,有三百篇以上的学术论文引用)。其他领域的学者觉得它很有用,捷径和偏见这两个名词在很多领域被大量使用,包括医学诊断、法庭判决、情报分析、哲学、财经、统计和军事策略。
例如,研究政策的人注意到,为什么有些政策在民众心目中很鲜明,而有些又被忽略,原来是可用性捷径的关系。假如人们能够很快、很容易从记忆中提取资料,就会判断这个议题或事情是重要的,而这又受到媒体是否大幅报导的影响。常常见报的议题很容易被想起,其他议题则会从我们意识中流失。结果,媒体选择报导的东西就跟大众当下心中所关切的相呼应,独裁政府对独立媒体施压也就不稀奇了。因为大众的兴趣最容易被戏剧化的事件或名人所激发,所以媒体炒作热是很普遍的现象。在麦可.杰克森 (Michael Jackson) 突然死亡后好几个礼拜,你几乎不可能找到任何一家电视台是在播报其他主题。相反的,其他重要但不吸引人的主题,如教育程度的低落,或是医疗资源过度投资在临终病人身上,就很少受到媒体的青睐,很少被报导(在我写这段的时候,我注意到我在选择很少被注意的例子时,用的就是可用性捷径。我选来当做例子的教育和医疗资源比较常被提到,但还有很多同样重要、比较难被提取的主题没有进入我们心中)。
我们当时并未充分了解到这一点,但是这篇文章会引起心理学界以外的学者这么大的注意,是我们研究的一个附带的特质:我们每次在论文中都会附上我们问自己以及受访者的完整问卷,这些问题是展示给读者看,让读者辨识出自己的思考如何因为认知的偏见而失误。我希望你在读到史提夫是否为图书馆员的问题时,有这样的体认。这个问题的用意,就是要使你充分了解相似度对判断机率的威力,并且看到人是多么容易忽略相关的统计事实。
这个「捷径──偏见」的展示提供了其他领域的学者(尤其是哲学家和经济学家),一个检视自己思考缺点的不寻常机会。看到了自己犯错,就比较可能去挑战当时普遍的教条假设──即人性是理智和逻辑的。实验方法的选择非常关键:假如我们报告的只是用传统实验方法得出的结果,这篇文章就不会这么有价值,也比较少人会记得它。此外,心存怀疑的读者会对实验结果心存疑虑,并会把判断错误归因到不负责任的大学生身上,因为心理学实验的参与者大多是大学部学生。当然,我们没有选择用传统的实验方式来做,是因为我们想影响哲学家和经济学家[6]。我们选择用展现的方式,因为这样比较有趣,我们在方法的选择上很幸运,其实,我们在很多其他方面都很幸运,在本书中,一个一直重复出现的主题就是运气:运气在每一个成功的个案中都扮演了重要的角色,你总是很容易在一个故事中,找到一个小小的改变,这个改变就扭转了乾坤,把原来不怎样的结局变成大大的成就,我们的故事也不例外。
对我们研究的反应不是全部都是正向的。尤其我们聚焦在偏见上,别人批评说是对心智不公平的负面观点。就如在正常的科学中,有些学者会将我们的想法去芜存菁,有些则提出更可信的说法。不过整体来说,现在一般已经接受心智易受系统化错误的影响的看法。我们关于判断的研究对社会科学的影响,远大于我们在进行实验时的预期。
在做完判断的研究后,我们立刻把焦点移转到「在不确定的情况下做决策」这个议题。我们的目标是发展出一个心理学理论,显示人们在玩简单的赌局时,如何做决定。例如,你愿意接受「在丢铜板时,人头出现,你赢130美元;反面出现,你输100美元」这样的赌盘吗?这类基本的选择很久以来一直被用来检视各种决策制定的问题,例如,人对确定的结果和不确定结果会有不同的加权。我们的方法还是没有改变,我们会花好几天设计一些选择的难题,然后检视我们直觉的偏好有没有符合逻辑的选择。在这里,我们又观察到跟判断时一样的系统化偏见,直觉的偏好一致性地违反理性选择的规则。在上次《科学》期刊文章出现五年后,我们发表了〈展望理论:风险之下决策的分析〉(Prospect Theory:Analysis of Decision Under Risk)。有人认为这个关于选择的理论比我们对判断的研究更有影响力,它变成行为经济学 (Behavioral Economics) 的基石之一。
后来我跟特维斯基两人分隔两地,很难再像以往一样继续享受一起做研究的乐趣。我们两人分享心智,成效远超过分开思考;彼此关系融洽,更使工作充满乐趣,生产力大大提升。我们在判断和决策制定上的合作,是我后来在2002年获得诺贝尔奖的原因。特维斯基如果没有在1996年过世的话,他会和我一起得奖,他过世时才五十九岁,真是英年早逝。
我们现在在哪里
本书的目的并非只想阐述特维斯基和我早期研究的成果,这些年来已有许多研究者在这方面有很出色的表现了。本书主要的目的,是想用认知和社会科学最新发展出来的新知识,来解释人的心智是如何运作。其中一个比较重要的发展是我们现在了解直觉思考的好处和坏处。
特维斯基和我并没有谈到直觉的正确性,只是轻描淡写地说「捷径的判断很有用,但有时会带来严重的系统化错误。」我们的焦点放在偏见上,一方面是偏见本身比较有趣,另一方面是它提供了捷径判断错误的证据。我们并没有问自己,是否所有不确定性的直觉判断都是来自我们研究的捷径。现在我很清楚了,并不是,尤其是专家们的正确直觉不是来自捷径,而是他们长期经验的累积。我们现在可以画出一张比较丰富、比较平衡报导的图片了,技术和捷径是直觉判断和选择的替代来源。
心理学家克莱恩 (Gary Klein) 曾经说过一个故事:一群消防队员进入一间厨房着火的房子,他们很快就把火熄灭了,消防队长听到他自己大喊:「马上撤出!」但他并不知道自己为什么会这样说,结果消防队一离开,地板就垮掉了。事后,消防队长才知道,因为这场火比一般的安静,没有剧烈燃烧的巨大声音,而他的耳朵又比正常时更热,这激发了他的「危机第六感」(sixthsense of danger)。他并不知道什么地方不对,但是他知道不对劲了,后来发现原来火源不是在厨房,而是在地下室,消防队员们当时就站在火源上头。
我们都听过这种专家直觉的故事:西洋棋大师在经过街头棋局时,脚步都没停,就说「再三步,白棋赢」;或是医生只要看病人一眼就能做出复杂的诊断。专家的直觉在我们看起来好像是魔术,但其实不是。我们每个人每一天都有许多次在做专家的直觉判断,大部分人在听到电话中传来的第一个字时,就能侦察到对方的愤怒;一走进房间,就立刻知道别人正在谈论我们;或是开车时,旁边车道的驾驶者有一些细微的动作,使我们马上判断他是个危险的驾驶者,立刻做出因应的避祸措施。我们每一天的直觉能力并不比有经验的消防队员或医生差,只不过我们经历的都是日常小事而已。
正确直觉的心理学并没有任何魔术在里面,或许最好的一句话就是赛蒙 (Herbert Simon) 这位研究西洋棋大师的心理学家说的:西洋棋大师和我们最大的不同是,在花过几千个小时下棋后,他们看棋盘的方式已经跟我们不一样了。从赛蒙下面所说的话,你可以感受到他很不耐烦坊间把专家的直觉神话化:「情境提供了线索,线索让专家得以从记忆提取储存其中的讯息,讯息提供了答案。直觉就是辨识 (recognition),不多也不少,就是它。」
我们看到一个两岁的孩子看到狗时叫出「狗狗」,一点也不奇怪,因为我们已经习惯了孩子每天都在学习辨识物体,并且「叫名」(naming)。赛蒙对专家直觉的奇迹也抱同样的看法,当专家已学会一个新的情境辨识出熟悉的元素,他就发展出正确的直觉,能够依当下情境反应最恰当的行为。好的直觉判断就像孩子看到狗时叫狗狗一样,是学习和经验的累积。
很不幸的是,专业的直觉并非全部来自专家。许多年前,我去拜访一位大型财务公司的投资部门经理,他告诉我,他投资了千百万美元在福特汽车公司的股票上。我问他,他怎么做出这个决定,他回答,他最近去一个汽车展示场,对福特的车子印象很好。「啊!他们真的是知道如何去打造一辆汽车!」这就是他的解释。他非常清楚地表示,他相信他的直觉,所以对他的决定很满意。我非常惊讶他没有考虑经济学家一定会问的一个问题:福特的股票现在是低于它的市场价值吗?相反的,他听从他的直觉,他喜欢福特汽车,喜欢福特公司,喜欢拥有福特公司的股票,从我们对正确选择股票的知识来说,这位投资专家可以说不知道自己在做什么。
特维斯基和我研究的特定捷径,对了解大公司老板如何决定投资福特的股票来说,没有什么实质的帮助,但是现在有更广泛的捷径概念,它对上述行为就有很好的解释。一个重要的进步是,情绪在了解直觉的判断和选择上变得很重要,而且远比过去的角色重要。今天,那个投资经理的决定会被称为情意捷径 (affect heuristic),即判断和决策直接受到喜欢或不喜欢感觉的操弄,很少思辨和推理的成分在内。
当碰到问题,比方说,决定下一步棋怎么走,或是否投资某个股票时,直觉思考的机制会尽力而为。假如这个人有相关的专业经验,他会辨识出情境,浮现他心头的直觉解决方法很可能就是正确的。例如,一个西洋棋大师看到一盘复杂的棋,他脑海中马上想到的好几步棋全都是好棋。但当问题很困难,又没有熟练的解决办法时,直觉还是可能发挥作用,迅速想出一个答案进入中心,但此答案却不是针对原来问题的回答。例如,投资经理面对的问题(我是否该投资福特的股票?)很困难,但是一个比较简单而且相关问题的答案(我喜欢福特汽车吗?)马上就进入他的心中,决定了他的选择,这是直觉捷径的精髓:当面对困难问题时,我们经常回答比较容易的问题,而不是回答真正的问题,而且通常没有注意到这样的问题替换。
自动搜寻直觉的解决方法有时会失败,不论是专家的解决方式或捷径的回答都想不起来,在这种情况下,我们会转换到一个比较慢、比较特意、要费力气的思考方式,这就是书名「慢的思考」(slow thinking) 的意思。「快的思考」(fast thinking) 包括各种直觉的思考──专家的和捷径的,以及整个自动化的知觉和记忆的心智活动,这种操作使你知道桌上有一盏灯,或是回答出俄罗斯的首都在莫斯科。
在过去二十五年里,许多科学家都曾探讨过快和慢两种思考方式的区别。我在下一章中会讲到,为什么我用系统一和系统二的比喻来描述心智生活,系统一代表快的思考,系统二是慢的思考。我会谈到直觉的和特意的这两种思考的特质,就好像是你心中有两个人的人格特质。从最近的研究中得知,直觉的系统一思考远比经验告诉你的更具影响力,它是你许多选择和判断背后的秘密作者。这本书大部分是关于系统一的工作情形,以及系统一和系统二之间相互的影响。
本书架构
本书分成五个部分,第一部分是两个系统对判断和选择的基本元素。详细说明系统一自动操作和系统二控制操作之间的差别,让读者看到联结记忆 (associative memory) 这个系统一的核心,如何为我们世界中任何时刻所发生的事件持续建构一个完整又合理的解释。在直觉思考之下的无意识和自动化历程的复杂性和丰富度,我尝试给予比较好、比较有意义的解释。这个部分的目标是介绍一套术语,供人们在思考和谈论心智时运用。
第二部分是增订捷径判断的新知识,并且探讨一个主要的困惑,就是为什么用统计的方法思考这么难?我们很容易用联结的方式思考,也可以用比喻的方式,我们也可以有因果关系地思考,但是统计型思考需要你同时想到很多事情,而系统一不是设计来这样用的。
统计型思考的困难会放在第三部分,我会谈到心智的上限:我们对自认为熟悉的事物过度自信,显然不知道自己的无知会到什么程度,也不知道我们所住的这个世界的不确定性。我们倾向于高估自己对这个世界的了解,低估机率在事件发生时扮演的角色。过度自信是来自后见之明 (hindsight) 的虚幻确定感。我对这个主题的看法受到塔里 (Nassim Taleb) 的影响。他是名著《黑天鹅效应》(The Black Swan) 的作者。我希望在茶水间的闲聊能有智慧地探索过去学到的教训,以及拒绝后见之明的诱惑及确定性的错觉。
第四部分是用经济学原则讨论决策的本质,以及「经济代理人都是理性的」假设。这部分提供了展望理论主要概念的最新看法,该理论是根据特维斯基和我在1979年发表的两个系统模式而来的。后面的章节会谈到人们脱离理性的几种选择方式,我谈到人们很不幸的都把问题当作独立事件来看待,用框架效应 (framing effect) 来做决定,这是指人们常选择非因果性的特质来做决定。这个观察可以用系统一的特质来解释,这对标准经济学的理性假设提出了严重的挑战。
第五部分说明最新研究中经验自我 (experiencing self) 和记忆自我 (remembering self) 之间的差异,这两个自我拥有不同偏好。我们让受试者处在两种痛苦的经验中,一个绝对比另一个更痛苦,因为它的时间比较长。但是自动形成的记忆(这是系统一的特质)有它自己的规则,我们可利用它使这个更痛苦的情境留下比较好的记忆。当受试者稍后选择要再经历哪一个情境时,他们会很自然受到记忆自我所引导,不让自己(经验自我)受不必要的痛苦。这两个自我的差异可以应用到幸福感 (well-being) 的测量上,我们再一次发现,使经验自我快乐的东西,不见得能满足记忆自我。同一个身体里的两个自我如何追求快乐,这对个人以及幸福当作政策目标的社会都提出了一些难题。
最后,我在总结讨论三种差异的意义及其可能的影响:一个是经验自我和记忆自我的差异,另一个是古典经济学和行为经济学上代理人概念的差异(这是从心理学中借用过来的);第三个是自动化的系统一和特意的系统二之间的差异。我会回头再谈有教育性闲聊的好处,以及哪些机构可以增进判断和决策的品质。
我与特维斯基合写的两篇论文放在本书附录中。第一篇是〈不确定情况下的判断〉,这篇我在前面讲过了。第二篇是1984年发表的,总结了展望理论以及我们对框架效应的研究。这两篇文章是诺贝尔奖委员会在讨论我们的贡献时引用的文章,你可能会很惊讶,觉得它们怎么这么简单。阅读这两篇文章会让你了解,我们以前知道了多少,经过这几十年,我们又多知道了多少。
第一部 两个系统
01 故事中的人物
图1
要观察你的心智在自动化模式中的情形,请看下面这张图。
当你在看这个女人的面孔时,你的观看体验天衣无缝地结合了我们一般称之为看 (seeing) 和直觉思考的两个历程。你马上注意到并且很确定这个年轻女子的头发是黑色的,知道她在生气,此外,你所看到的东西延伸到未来,你感觉到这个女人即将要说出一些不好的话,可能很大声又很刺耳,她下一步会做什么很自动、毫不费力地进入你的心中。你并不刻意想知道她的心情如何或是预测她可能做什么,而且你对照片的反应并不是你做了什么才发生的。你的感觉就这么产生了,这就是快速思考的一个例子。
现在请看下面这个问题:
17×24
你立刻知道这是一个乘法的问题,你可能知道若有纸和笔在手你算得出来;如果没有纸笔,你就算不出来。你同时也知道这个答案的范围,你马上可以辨识12609和123都是不对的答案。然而,假如你没有花时间计算这个题目,就不能确定答案是否为568。精准的答案不会马上进入你心中,你觉得自己可以选择是否要算算看。如果你现在还没做题目,应该试一下这个乘法题,最少解一部分看看。
你一步步在做乘法时,你经验到慢的思考。你先从记忆中提取在学校时学的乘法规则,然后用它把答案计算出来,你感觉到把东西记在大脑中的负担,因为你需要追踪你做到哪一步,下面又该怎么做。每一步都要把前面一步记在脑海里,这个历程就叫心智运作:特意的、花力气的和有次序的运作。这正是慢的思考的典型。这个计算不只是你心中的事件,也动用到你的身体,你的肌肉紧张起来,血压上升,心跳加速。在做计算时,如果有人看你的眼睛,他会发现你的瞳孔是放大的。当你的心智工作结束时,瞳孔就回到原来的大小;也就是说,当你得出正确答案(顺便一提,是408),或是你做不出来放弃时,瞳孔就恢复正常了。
两个系统
最近几十年来,心理学家一直对愤怒女子的照片和乘法问题所唤起的两个思考模式很感兴趣,给这两个途径取了很多的名字。我采用的名词是最初由心理学家史坦诺维胥 (Keith Stanovich) 和魏斯特 (Richard West) 所提出的用法,我把心中的两个系统叫做系统一和系统二。
- 系统一是自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。
- 系统二则动用到注意力去做费力的心智活动,包括复杂的计算。系统二的运作通常都跟代理人、选择和专注力的主观经验有关。
系统一和系统二的名称在心理学中受到广泛使用,但是我在这本书中用的比一般的还深,你可以把它们当成两个主角的一出心理戏剧去阅读。
当我们想到自己时,我们用到的是系统二,也就是有意识、理性的自我,它有信念,会做选择,决定要怎么想及怎么做。虽然系统二自认为是做行动的人,本书的英雄却是系统一。我描述系统一毫不费力就能产生印象和感觉,做为系统二明确的信念及特意选择的主要来源。系统一的自动运作可以产出复杂的构想模式,但是只有慢一点的系统二可以一步一步地建构思想。我同时也描述在什么样的情况下,系统二会接手,驳回系统一随心所欲的冲动和自由联想。你可以把这两个系统当作两个代理人,它们各有各的能力、上限和功能。
大致依照复杂度的顺序,下面是系统一自动化活动的一些例子:
- 侦察到一个物体比另一个物体远。
- 转头朝向突然发生的声音来源。
- 接续完成「面包和……」这个片语 (“Bread and……”)。
- 当看到一张可怕的图片时,做出厌恶的表情。
- 侦察到声音中的敌意。
- 回答2+2=?
- 阅读大型广告看板上的字。
- 在空无一人的道路上开车。
- 在棋局中发现一条好路(如果你是西洋棋大师的话)。
- 了解简单的句子。
- 辨识「一个温和、整洁、对细节很在乎的人」的叙述,很像某一个职业的刻板印象。
上面这些心智事件都和那个愤怒女子相关──它们自动出现、毫不费力或只要用到一点点力气。系统一的功能包括我们跟其他动物天生共有的技能。我们天生就会感知周边的环境、辨识物体、集中注意力、避免损失,以及害怕蜘蛛。其他心智活动则透过长期的练习,变得很快而且自动化。系统一学会两个念头之间的联结(法国的首都是?)同时也学会一些技巧,例如解读和了解不同社会情境之间的微妙差异。有些技巧只有特别的专家才具备,例如找到有力的棋路;其他技巧则是大家都有的。能够侦察到某种人格的描述跟某个行业的刻板印象相似,则需要广泛的语言和文化知识,这也是我们大部分人拥有的。这些知识储存在记忆中,不用刻意也不费吹灰之力就可以提取。
上述清单中好几个心智活动完全是非自主性的,你无法避免自己了解母语中的简单句子,或把头转向突然发生的巨大声响。你也不能阻止自己知道2+2=4,或在提到法国首都时不想到巴黎。而有些活动,例如咀嚼,属于自主化的控制,但一般是自动运作。系统一和二分担注意力的控制权,把头转向巨大声音的来源,通常是系统一的非自主性运作,它马上驱动系统二的自主性注意力。也许你在一个很拥挤的派对中,可以抗拒把头转向大声又无礼的批评,但即使你没有转头,你一开始还是会把注意力转过去,至少一会儿。
系统二的运作有高度多样性,但是它和系统一拥有一个相同的特质:它们都需要注意力,当注意力转移时,它们的运作都会受到干扰。下面是一些例子:
- 在赛跑时,注意裁判的鸣枪。
- 在马戏团表演时,注意力集中在小丑身上。
- 在一个拥挤嘈杂的房间中,注意某一个人的声音。
- 寻找白头发的女人。
- 搜寻记忆去找出刚刚那个让人惊讶的声音是什么。
- 维持比平常更快的步伐。
- 在一个社交场合监控自己的行为,避免失礼。
- 数数看书中一页有多少个字母a。
- 告诉别人你的电话号码。
- 在很窄小的停车格中停车。
- 比较两台洗衣机的整体价值。
- 填报税表格。
- 检视一个复杂的逻辑辩论的效度。
上述所有的情境,你常得用到注意力。假如你没有准备好,或是你的注意力没有放在应该注意的地方,你的表现会很差,或完全没表现。系统二有能力改变系统一的运作,借由重新设定,控制通常是自动化运作的注意力和记忆功能。例如,当你在繁忙的火车站等亲戚时,可以自由设定自己去搜寻白头发的老太太,或是有胡子的男人,借此增加在远处便看到亲戚的机率。你可以设定你的记忆去搜寻N开头的首都或法国存在主义的小说。当你在伦敦希斯罗 (Heathrow) 机场租车时,柜台小姐可能会提醒你,「我们这里是靠左边开车」。在这些例子里,你被要求去做不是自然发生的行为,你会发现,维持这个表现需要大脑持续的努力。
「请注意」(pay attention) 这句常说的话其实很恰当:注意力就像预算,你可以分配你有限的预算到各个活动,如果超出预算,就会失败。需要费力的活动会互相干扰,这是它们的特性,因此,我们无法或很难同时运作好几件事。你无法一边计算17×24,一边左转开进繁忙的车流中,你绝对连试都不应该试。你可以同时做很多事,但前提必须是:它们都很简单,而且要求不高。你在没有人的高速公路上,一边开车一边跟朋友说话,可能安全无虞,许多父母(或许带点罪恶感地)发现,他们可以一边念书给孩子听,脑中一边去想别的事情。
每一个人多少都了解注意力是有限的,我们的社会也宽容这个资源有限所造成的不礼貌行为。例如在很窄的路上想要超越大卡车时,你的朋友会识相地闭上嘴巴,使你能专心超车,他们知道这时使驾驶人分心不是个好主意,同时也猜测到驾驶人这时是暂时性的耳聋……听不见他们在说什么。
完全聚焦在一件事上,会使这个人暂时性的失明,甚至对平常会吸引他注意力的刺激毫无感觉。最戏剧化的例子就是查布利斯 (Christopher Chabris) 和西蒙斯 (Daniel Simons) 在其著作《为什么你没看见大猩猩?》(The Invisible Gorilla) 中所显现的。他们拍了一个短片,两队的人在打篮球,一队穿白球衣,另一队穿黑球衣。他们请受试者在看影片时,去数白队的人传了几次球,不要管黑队的人在做什么。这个任务很难,需要全神贯注。影片播到一半时,有个穿着大猩猩衣服的女生出现,走过篮球场,拍打她的胸部,然后走到球场另一边。这个大猩猩出现整整9秒,好几千人看过这个录影带,但是有一半的人没有注意到任何不寻常的地方。这是因为计算作业──尤其是请受试者不要注意另一队人的要求──造成了「看不见大猩猩」现象。假如不要去数传了几次球,所有看影片的人都会注意到大猩猩。观看和注意力的移转本来是系统一的自动运作,但是它需要将一部分注意力分配到相关的刺激上。作者注意到这个研究最有趣的地方是,人们觉得结果相当令人惊讶。的确,没有看到大猩猩的人,一开始都很确定大猩猩不曾出现──他们不能相信自己居然看不到这么大的事情发生。这个大猩猩的研究显现了心智的两个重要事实:我们会对显而易见的东西看不见,而且我们看不见自己的看不见[1]。
剧情提要
这两个系统的互动是本书一再重复出现的主题,所以需要给一个简单的提要。在我要讲的故事里,只要我们醒着,系统一和系统二都很活跃。系统一是自动化的运作,系统二平常则处于很舒适的低费力模式中,只动用一小部分的资源在运作。系统一持续给予系统二建议:给它印象、直觉、意图和感觉。如果系统二支持,这些印象和直觉转而变成信念,而且一时的冲动转变成自主性的行动。当一切进行顺利时(大部分时候如此),系统二会采纳系统一的建议,常常照单全收,或可能微调一下。你通常相信你的印象,并且根据欲望去行动,通常来说,这样很不错。
当系统一碰到困难,就呼叫系统二支持,提出比较详细和比较特定的处理方式,以解决目前的困难。当系统一不能提供答案时,系统二就会动员起来,像你在做17×24的时候那样。每当你觉得惊讶时,你也会感觉到一股有意识的注意力涌出来。当一件事被侦测出违反系统一维系的世界的模式时,系统二会被激发起来。在系统一的世界中,台灯是不会跳的,猫不会汪汪叫,大猩猩不会穿越篮球场。大猩猩的实验显示,要侦察到令人惊讶的刺激,需要一些注意力。惊讶会活化并且引导你的注意力,你会瞪大眼睛看,搜寻你的记忆,看有没有故事可以解释这个惊奇的事件。系统二同时也负责持续监控你自己的行为──使你在愤怒时仍保持礼貌,不失风度;提醒你是在夜晚开车。当侦察到一个错误马上要发生时,系统二会动员起来,增加心智的努力以避免灾难。还记得有一次你差一点脱口而出一句不恰当的话,你是多么努力恢复自我控制吗?总的来说,大部分你在想或做的事源自系统一,但是系统二在遇到困难时,会把工作接过来,一般而言系统二拥有最后决定权。
系统一和系统二的工作分配非常有效率:它将工作减至最低,将效能充分提高。这个安排大多运作良好,因为系统一通常很称职,应对熟悉情境的模式通常很正确,它的短期预测通常也很正确,面对挑战的立即反应也很快,而且很恰当。然而,系统一有偏见,并在一些特定情况常会发生系统化的错误。我们下面会看到,系统一常常避重就轻,回答容易回答的问题,而不是被问到的问题。它对逻辑和统计也不了解。系统一还有一个更大的缺陷是:它无法被关掉。假如你在萤幕上看到一个字是你认得的,你就会去读它──除非你的注意力完全投注到别的地方。
冲突
图2是一个制造两个系统冲突的经典实验修正版,在你继续阅读下去之前,先做一下这个实验。
图2
这两个作业都很简单,你几乎不可能犯错。你会发现,两个作业都有一部分比较容易,当你在区辨大写 (upper)、小写 (lower) 时,左边的字比较容易辨识,而右边那一栏的字则使你慢下来,有时还会口吃或口齿不清。当你在判断这个字在左边 (left) 或右边 (right) 时,左边的那一栏就变得比较困难,而右边的比较容易。
这个作业动用到两个系统,因为说「大写/小写」或是「右边/左边」并不是你往下看一行字时惯常会做的事。为了要做这个作业,需先设定好你的记忆,使相关的字汇(大写/小写)在你的舌尖准备好。所以你在读左栏时,选择有优先权的大写/小写就很有效,你很容易抵抗文字对你的诱惑,你不去管它,只管大写和小写。但是右栏就比较困难了,因为它包含了你设定好要讲的话,你无法忽略它,你虽然可以做得很正确,但是为克服竞争的反应就使你慢下来了,你经验到你要做的作业和自动化反应之间的冲突,后者会去干扰前者。
自动化反应和控制意图之间的冲突在生活中很平常。我们都有这种经验,在餐馆吃饭时,想办法控制自己的眼睛,不去看隔壁桌奇装异服的客人。我们也都知道,强迫自己去读一本很无聊的书时,眼睛会回到已经看过的地方,因为不知它在讲什么,注意力就游离了,等一下回过神来,只好再从那里读起。在冬天酷寒的地方,很多开车族都曾经遭遇过车子在冰上滑行失控,这时努力违反平日的做法:顺着打滑的方向走,不管你做什么,就是不能踩刹车[2]!系统二的作业之一就是驳回系统一的冲动;换句话说,系统二是主掌自我控制。
错觉
请你好好看一下图3,你才会领略系统一的自动化,以及印象和信念之间的差异。
图3
这张图很寻常:两条不同长度的平行线,尾端附有指向不同方向的鳍状物,下面那条显然比上面那条长,这是我们看到的,我们当然相信自己亲眼见到的东西。假如你曾经看过这张图,你应该知道这就是有名的慕勒-赖尔 (Müller-Lyer) 错觉。只要拿一把尺测量一下,很容易就能确认它们是不折不扣一样长的两条线。
现在你测量过了,你──即系统二,你称为「我」的有意识的存在,拥有一个新的信念,你「知道」这两条线是一样长的。假如我再问你这两条线的长度,你会回答一样长,因为你已知道了,但是你还是会「看到」下面那一条比较长。你选择去相信测量,但是你没有办法阻止系统一不去做它的工作:你不能决定可以把这两条线看成一样长,虽然你明明知道它们一样长。要抵抗错觉,只有一个方法:你必须学习不信任自己的印象,当你看到附有鳍状物的直线长度时,你要告诉自己,线条是一样长的。要执行这个规则,你必须能够辨识这个错觉的型态,而且要回忆你知道它们是一样长的。假如能做到这点,你永远不会再被慕勒赖尔错觉愚弄,但是你仍然会「看到」一条线比另外一条线长。
并不是所有错觉都是看得见的。我们所谓的认知错觉 (cognitive illusions) 是指思考上的错觉,是看不见的。我在当研究生的时候,上过艺术和心理治疗课,在某一堂课中,老师跟我们分享了一点临床上的智慧,他说:「你们不时会碰到一种病人,他以前看过很多心理治疗师都没有治好,这个病人可以活灵活现地描述之前的治疗师如何错解了他,犯了多少错误,但是他一看到你,马上就知道你是不同的。你也跟他一样有同感,你相信你了解他,并且有能力帮助他。」这时,老师突然提高声音,大声地说:「绝对不要收这种病人!把他赶出去,他很可能是心理病态 (psychopath),你怎样也帮助不了他!」
多年以后,我才了解,这位老师警告我们要抗拒心理病态的魅力。在这个领域,最顶尖的研究者证实了我们老师的话是对的。这和慕勒-赖尔错觉有很相似的类比,老师没有教我们不要跟病人感同身受,因为他知道我们对病人的感觉不是我们自己能控制的,它是来自系统一;此外,老师也没有教我们怀疑自己对病人的感觉,他告诉我们,被一个有重复失败医疗史的病人强烈吸引,是一个危险的讯号,如同那两条平行线尾端的鳍状物一样。这是错觉,一种认知错觉,我(即系统二)被老师教导如何辨认讯号,并且不要相信它或做出任何反应。
关于认知错觉,最常被问到的问题就是,它可不可以被克服。这些例子的讯息不是很激励人,因为系统一是自动化运作,不能随意志被关掉,直觉想法的错误通常很难防止。我们不是每次都能成功避开偏见,因为系统二根本就不知道有这个错误。即使可能犯错的线索就在身边,也只有靠系统二强化监控和特意努力下才可能避免。但是假如你想好好过日子,一直处在警戒的状态下不一定是好的,也太不实际。一直质疑自己的思考,实在太繁琐乏味了。而且系统二运作太慢、太没有效率,无法代替系统一来做例行性的决定。我们唯一能做的就是妥协:学习去辨识错误可能发生的情境,如果代价很高,便加倍努力避免犯下重大错误。这本书的前题是,人很容易看到别人的错误,却不容易看到自己的[3]。
有用的故事
请你把这两个系统想成心中的两个代理人,两人各有人格特质、能力和缺陷。在此书我经常将这两个系统当成主词,例如「系统二计算成果」。
在我所处的专业圈子中,这种拟人化的句子被认为是罪恶 (sin) 的,因为这好像是说一个人的思想和行动,是受到大脑中另一个人的思想和行动的指挥。在文法上,系统二的这种句子就好像「男管家偷了家用钱」。我的同侪会说,男管家的行为便解释了现金消失的原因,所以他们便质疑「系统二计算成果」这句话是否解释了成果如何被计算。我的回答是,这个简短主动句把计算归因于系统二,是要做为一种描述,而不是解释。只因为你已经知道什么是系统二,它才具有意义。它是以下叙述的简略:「心智计算是一个自主的活动,它需要花力气,它不会在你开车左转时运作,而且跟瞳孔的放大和心跳的加速有关系。」
同样的,像「在高速公路开车,一般情况是交由系统一运作」这句话,意指操控驾驶盘是自动化、几乎不需花力气的动作,同时也暗示,一个有经验的司机在无人的高速公路上是可以边开车边聊天的。最后,「系统二阻止了詹姆斯对侮辱做出愚昧的反应」这句话表示,假如詹姆斯自我控制的努力受到干扰的话,他的反应会厉害得多(例如,他喝醉了)。
系统一和系统二攸关我在这本书中要告诉你的故事,所以我必须百分百说清楚它们只是虚构的角色。系统一和系统二不是一般认知的那种可以互动的系统。在大脑里,没有一个部分是这两个系统可以称为「家」的地方。你可能会问:你在一本严肃的书中介绍两个虚构又有难听名字的角色,目的是什么?我的答案是,这两个角色很有用,因为你我心中都有怪癖,一个描述某个代理人(系统二)在做什么的句子,会比描述这东西是什么、它有什么特性,更容易了解。换句话说,系统二是比「心智计算」更好的主词。心智(尤其是系统一)显然具有建构和解释积极代理人故事的特殊倾向,这些代理人具有性向、习惯和能力。你很快就会对一个偷钱的男管家形成不好的印象,并预期他会有更多不好的行为,而且会记得他一阵子。这正是我对两个系统的语言所抱的希望。
为什么要叫系统一和系统二,而不用更具描述性的「自动化的系统」和「花力气的系统」?理由很简单:「自动化的系统」比「系统一」来得长,占据较多的工作记忆空间。这很重要,因为任何占据工作记忆空间的东西都会减低你的思考能力。你可以把系统一和系统二当作小名,就像鲍伯 (Bob) 和乔 (Joe) 一样[4],借此学习辨识你在读这本书时会认识的角色。虚拟的系统使我较容易思考判断和选择,也会让你较容易了解我在说些什么。
说到系统一和系统二
「他有一些印象,但是有的印象是错觉。」
「这单纯只是系统一的反应。在她辨识出威胁之前,已经做出反应。」
「这是你的系统一在说话。放慢下来,让你的系统二来操控吧。」
02 注意力和努力
万一这本书被拍成电影,系统二会是一个自认为是英雄的配角。在这故事中,系统二的人物特性定义是,它的运作是要花力气的,而且主要特性之一是懒散,也就是若非必要绝不多花力气。结果,系统二认为它已经选择的思想和行动,却通常是由故事的主角系统一指派。然而,有些关键作业只有系统二才可以做,因为它们需要花力气和自我控制,用以克服系统一的直觉和冲动。
心智努力
假如你想体验系统二全力运作的情况,下面的练习可以帮助你,在5秒之内将认知能力发挥到极限。开始时,先拟出几个四位数的数字,全部都要不一样,把每一个四位数字写在一张小卡片上,拿一张空白的小卡片放在这堆卡片最上面,这个作业叫做「加一」(add-1),并依下面的指示做:
请把节拍器定在每秒一拍,你需要一个稳定的节奏。
拿掉第一张卡片,大声读出四位数字,等到第二拍,把每一个数字加一,再大声念出来。假如卡片上的数字是5294,那么正确的反应是6305。维持节奏是很重要的事。
很少人能够在「加一」的作业上处理超过四位数字,如果你想要挑战更难的,请尝试「加三」。
假如你想知道心智忙碌时,你的身体在做什么的话,请把两叠书放在一个稳定桌子的两侧,把一台录影机摆在其中一叠书上面,然后把头倚在另一叠书上,当你开始做加一或加三的作业时,眼睛盯著录影机的镜头。你会从瞳孔的大小改变中发现,它忠实地记录了你的心智工作得有多辛苦。
我个人进行「加一」这个作业已经很久。我刚展开职涯时,以访问学者的身分在密西根大学 (University of Michigan) 的催眠实验室待了一年,我那时在寻找有用的研究题目,发现《科学人》(Scientific American) 的一篇文章中,心理学家赫思 (Eckhard Hess) 把眼睛的瞳孔称为灵魂之窗 (window to the soul)。我最近又把这篇文章重读了一遍,发现它非常有启发性。赫思在文章开头表示,他太太发现,当他在看漂亮的风景照片时,瞳孔会放大。文章结尾是同一位美女的两张相片,但是其中一张看起来比另外一张更吸引人。这两张唯一的差别在具吸引力的那张相片瞳孔是放大的,另一张瞳孔则是收缩的。赫思同时写到一种用在化妆品上,可使瞳孔放大的药物Belladonna,也写到有些奇怪的客人,买东西时会戴上墨镜,使人不知道他对商品究竟有没有兴趣。
赫思的一个发现特别引起我的注意。他观察到,瞳孔是心智工作的敏感性指标──当人们在做二位数乘法时,瞳孔会放大,问题愈难,瞳孔放得愈大。他的观察显示,瞳孔是心智工作的反应,与情绪的警觉不同。赫思的研究跟催眠无关,但是我认为这个看得见的心智工作窗口,倒是一个值得研究的题目。实验室中另一位研究生比提 (Jackson Beatty) 跟我一样感兴趣,于是我们便开始动手研究。
比提跟我设计出一个跟验光师检查室很相似的房间,受试者把头靠在下巴及前额靠座上,眼睛看着摄影机,耳朵听一个事先录好的讯息,然后依照节拍器的速度来回答问题。这个节拍器每秒闪动一个红光,使摄影机拍下受试者瞳孔的相片。在实验结束后,我们便冲去洗相片,把瞳孔影像投射到银幕上,然后用尺去量直径。这个方法对年轻、不耐烦的研究者可以说是非常理想,我们几乎马上知道实验的结果,而且结果永远是非常清楚的。
比提和我聚焦在有步调 (pace) 的作业上,因为我们已经知道受试者在做「加一」作业时,心智在干什么。我们依照节拍器的速度录制数字串,指示受试者重复这些数字,或是「加一」再说出来,但是要维持同样的节奏。我们很快就发现,瞳孔的大小每一秒钟都在变化,反映出作业不断改变的要求。这个反应像个倒写的V字,当你试「加一」或「加三」时,你会感受到,每增加一个听到的数字,你就要增加一些力气去做它,终于到达一个几乎不可忍受的顶点,此时你迫不及待要说出转换的数字,当你把短期记忆卸载时,你会慢慢放松,瞳孔便慢慢恢复原状。瞳孔的数据跟主观的经验完全符合:数字串愈长,每次都会使瞳孔放得愈大,这个转换作业需要花力气去做,瞳孔放最大的时间跟心智需求量最大的时间相符合。在四位数「加一」的作业,比记住七个数字然后复诵出来时的瞳孔来得大。而「加三」的作业更难了,是我观察到要求最高的──头5秒,受试者瞳孔放大50%,而心跳每分钟增加7次。这是人们可以忍受的极限,如果再增加数字,他们就会放弃不肯做了。当我们给受试者更多数字,超越他们能够记住的范围时,瞳孔便停止放大,甚至反而缩小了。
我们在地下室一个相当宽敞的房间工作了几个月,装设了一个闭路电视系统,它可以把受试者的瞳孔影像投射到走廊的银幕上,我们同时也可以听到实验室里的声音。投射出来的瞳孔直径大约有1英呎,站着那里看着受试者接受测试时瞳孔放大和缩小,是一个非常有趣的经验,相当吸引来实验室参访的人。我们工作得很愉快,访问者也对我们的实验能力大为激赏。在做乘法心算时,受试者的瞳孔在几秒之内放大,然后一直保留在放大阶段,直至受试者找到答案或放弃时,即刻缩回原来大小。当我们在走廊上观察这个情况,有时会令受试者本人和参访者感到惊讶,因为我们会说,「你现在为什么停止了?」而实验室里面则传出惊讶的声音说:「你怎么知道?」这时,我们回答:「我们有一扇直通你灵魂的窗户。」
我们在走廊上随便观察,有时跟正式实验一样能提供情报。当我正闲散地观察一位女士在两个作业之间的空档,她的瞳孔变化的情形时,得到一项重大发现。她一直把下巴放在靠座上(比如说,她在与实验者说话时),使我可以观察到她的瞳孔。我很惊讶地发现,她在说和听时,瞳孔并没有放大或缩小,而是保持原状,这表示我们一般说和听时需要很少力气或根本不需要花力气,跟在脑海中保留二到三个数字没什么差别。这真是一个阿基米德式的大发现时刻。我了解到,原来我们选的这个实验作业,是需要大费周章才能够做到的。有一个影像来到我们心头,心智生活──现在我谈的是系统二的生活──平常是以很舒适的步调运作,有时候被几小段慢跑打断,在更罕见的情况下,则被突发的百米冲刺打断。这个「加一」或「加三」的作业就是百米冲刺,而一般谈话就是散步!
我们发现,人们在做心智冲刺的作业时,会变成效率的盲者 (effectively blind)。《为什么你没看见大猩猩?》作者把受试者的注意力转移到需要高资源的传球计数上,使他们看不见大猩猩。我们报告一个在「加一」作业时的类似例子,不过没有大猩猩那么戏剧化。我们的受试者暴露在一连串快速闪烁的字母下进行实验,他们被告知「加一」是必须最优先处理的作业,但是在实验终了时,实验者会问:刚刚一直快闪的字母序列中,有出现K吗?我们发现,在作业一开始的前10秒,受试者几乎都可以正确报告出目标字母来,在加一作业的一开始和结尾,他们都能正确的报告字母K有出现,但是在进行到一半,心智需求达到最高点时,有一半的时候,他们没有看到字母K,虽然我们有影像证明,他们的眼睛就瞪着字母K看。没看到字母的曲线,跟瞳孔放大的型态是一样的,都是倒写的V,这个相似性给了我们一颗安心丸:瞳孔的确是一个有效的生理激发 (arousal) 和心智努力的好指标。我们可以借此了解心智怎么运作。
瞳孔很像你们家屋外的电表,让你知道用了多少心智能量,这个类比其实有更深入的解释。你的用电量多寡是你的选择,你选择去开灯照亮一个房间或选择去烤两片吐司。当你开灯或按下烤面包机的开关按钮时,它会消耗需要的电力,但是不会多用。同样的,我们决定自己要做什么,但是对资源的多寡却没有主控权。假设我给你看一个四位数(例如9462),告诉你最好记住它10秒,不然你就死定了。不管你多么想活下去,你都没有办法挪用更多资源到这个作业上,就好像你被迫去投资需要更多资源才能完成「9462加三」这个作业一样。这个资源的分配不是你个人意志可以主控的。
系统二和你家的电路一样电容有限,但是对潜在的过载,反应却是不同。当用电量超越负荷时,断路器会跳电,中断电源。相反的,大脑对心智超越的反应却是有选择性且精准的:系统二会保护最重要的活动,使它得到所需的注意力,「剩余容量」再一秒接着一秒地分配到其他活动上。在我们的大猩猩实验版本中,我们告诉受试者要优先考虑数字作业,我们也知道他们有遵循这项指示,因为视觉目标出现的时机对主要作业没有任何影响。假如目标字母是在作业需求量最高的时候出现,受试者就会看不到。当转换作业的需求没有那么高时,受试者对字母的侦察效能就会上升。
这种对注意力的精密调配,是受到漫长演化历程的磨练。能够转向最严重的威胁或最有希望的机会并立刻做出反应,会增加存活率,这种能力当然不是人类独有。即使在现代人身上,我们还是看到系统一在紧急时会马上接管,把优先目标设定在自我保护的动作上。想像你开车时,突然地上有一滩油,车子打滑了。你会发现等你做完应变措施之后,才充分感觉到车子在打滑。
比提和我只合作一年,但是这项合作对我们两人日后的职涯发展都有很大的影响,他最后变成认知瞳孔测量 (cognitive pupillometry) 最权威的人士,而我则写了一本书叫《注意力和努力》。这本书大部分是根据我们一起做的实验,以及后来我在哈佛所做的后续实验写成的。我们从测量瞳孔在各种不同作业中运作的情况,学到很多关于心智的运作──我现在认为这就是系统二。
当你对一项作业变得熟练时,对能源的需求会愈来愈少。大脑的研究显示,技术精进时,相关的活动型态也会跟着改变,大脑活化的部位比较少。天分也有类似的效果,愈聪明绝顶的人在解决同样问题时,所花的工夫愈少,我们可以从瞳孔的大小和大脑的活动看出来。一般来说,广义的「最少努力法则」(law of least effort),适用于认知及身体的活动上。这个法则说,假如有好几个方式可以达到同样的目标,人们最后会选择采用行动需求最少的那一条路。在行动的经济学上,花力气就是成本,学习技术是受到利益和成本平衡所推动。惰性是深深烙印在我们的本性上。
我们所研究的作业在瞳孔上有很多不同的效应,我们的基准线是受试者必须很清醒,并且准备投入作业──警醒和认知准备度可能比一般更高。把一、两个数字保持在短期记忆中,或是学习把文字和数字联想在一起(如3=门),只要维持在警觉基准线上面一点,都会得到很可靠的效果。但是这效果很小,只有5%的瞳孔放大,跟「加三」的作业有关联;区分两个音调音高 (pitch) 的作业,则会使瞳孔显著放大。最近的研究发现,抑制想去看分散注意力的文字的倾向(如第一章中的图2),也会使花费的力气减少一点。六到七个数字的短期记忆测验是比较花力气的。我想你有过这个经验,当被要求大声说出你的电话号码或配偶的生日,需要花费短暂但是显著的工夫,因为你的回应是组织好的,你必须将这串数字储存在记忆中。心算两位数的乘法和「加三」的作业,已逼近大多数人可以做到的上限。
什么因素使得某些认知作业比其他认知作业耗费更多的大脑资源和工夫?是什么样的结果,让我们必须以注意力做为代价来换得?什么是系统二可以做到,但系统一做不到的?我们现在对这些问题已有初步的答案。
要在大脑中同时保持好几个想法,而每一个想法又需要不同的动作,或需要根据规则去把它综合起来,是需要下工夫的。例如,在进入超市时复诵你的购物单、在餐馆点菜时选择鱼或小牛肉,或是把根据小样本得来的资讯跟一项惊人的调查结果结合在一起。系统二是唯一可以遵循规则、根据不同属性比较物件,并且在两个选项间审慎做出决定的单位。自动化的系统一并没有这些能力,它侦察到简单的关系(「它们都很相似」、「儿子远比父亲高」),对整合一件事的讯息很拿手,但是无法同时处理很多不同的主题,也没有办法采用纯粹的统计资讯。系统一可以侦察到,被形容为「性情温和整洁、讲求秩序和结构,对细节很坚持」的人,很像漫画里的图书馆员。但是把这种直觉跟美国图书馆员比农夫人数少20倍的认识结合起来,是只有系统二做得到的工作──假如系统二知道该怎么做,因为这种能力很少人有。
系统二的一个关键能力是作业情境 (task set) 的采用,它可以设定让记忆去遵守「推翻习惯性反应」的指示。例如:请计算出本页所有F字母的总和,这是你从来没有做过的作业,对你来说并不容易,但是你的系统二可以处理。让自己接受并且执行这项练习,要花一点工夫,虽然你经过练习一定会进步。心理学家用「执行力控制」(executive control) 来描述采用和终止作业的情境;神经科学家已经找出大脑中,做这个功能的主要区域。有一个区域是当有冲突发生时,解决冲突的地方,另一个区域是前额叶 (prefrontal lobe),这个部位是人类大脑比其他灵长类大的地方,它跟智慧有关。
现在假设在本页末端,你得到另一个指示:计算下一页中所有的逗点。这个会比较困难,因为你要克服刚刚才学会、把注意力放在字母F上的习惯。最近几十年间,认知心理学家的一个重要发现,就是从一个作业移转到另一个作业是要花资源的,尤其在时间压力下,更需花很大的力气。「加三」的作业和心智乘法这么困难的原因之一,就是它需要快速的转换作业。要做「加三」的作业,你必须先把好几个数字放在工作记忆中,同时,将每一个数字与一项特定作业联结:有些数字是等待被转换,一个正在转换,其他的则是已经转换好,正在等待被报告出来。现代的工作记忆测试需要受试者在两个高要求的工作中重复转换,保存一项作业的结果,同时操作另一项作业。在这种测试上表现良好的人,智力测验的表现也很好。然而,控制注意力的能力并不只是测量智力,测量控制注意力的效率可以预测塔台空中交通管制员的表现,和以色列空军驾驶员的能力,比测量智力测验的效果更好。
时间压力是另一个要用力气的驱力。当你在做「加三」的作业时,你被节拍器的速度驱使,同时也被记忆中的负担所压迫。就像杂技团中抛接球的表演者,当你同时丢好几个球到空中时,根本不可能慢下来。影像在大脑中消失的速度强迫你加速步调,迫使你在它消失前复诵讯息。任何需要你同时维持好几个想法在心智中的作业,都有相同的快速本质。除非你幸运拥有很大的工作记忆,不然你会被迫快速工作,最耗费脑力的慢思考形式,就是那些催促你快快思考的形式。
你当然观察到,在你做「加三」作业时,你的心智是如何费力工作。即使你是为生活而思考,你在上班时所做的事也很少像「加三」那么要求心智资源,或和储存六个数字在记忆中,然后马上回忆出来那样苛求。为避免心智负担过重,我们一般会把作业切割成几个容易的步骤,并且会把这些步骤先储存到长期记忆中,或写在纸上,不会轻易使工作记忆负荷超重。我们要走很远的路时会慢慢来,用最少力气法则来管理我们的心智生活。
说到注意力和努力
「我不要在开车时解决这个问题,这是一个会使瞳孔放大的作业,它需要心智力气!」
「最少力气法则在此发挥作用,他是尽量能不思考就不思考。」
「她并没有忘记开会,她因为完全专注在别的事情上,所以在讨论开会时间时,她根本没有听到你的话。」
「马上进入心中的是系统一的直觉。我必须从头开始,特意去搜寻我的记忆。」
03 懒惰的控制者
我每年都在加州柏克莱 (Berkeley) 住上几个月,在那里最大的乐事之一,就是每天在有标记的山林步道走上4英里,边走边欣赏旧金山湾的美景[1]。我通常会记录我走的时间,发现走一英里大约花17分钟,这对我来说是散步,这种速度所花的体力和燃烧的卡路里当然高于坐在摇椅上摇晃,但是我没有感受到压力,没有冲突,不需要逼迫自己。我也能在这个速度下,一边走,一边思考。的确,我认为散步带来的中度生理激发,会使心智的警觉性更高。
系统二也有它自己的速度,即使你什么也没做,你还是花了一些心智资源在胡思乱想,和监控身边发生的事情上,但是你不会感到费力,除非你是在令你感到忧虑或自我意识的不寻常情境中(例如别人都在看我),不然监控你环境中发生的事或你大脑中胡思乱想什么,不需要花什么力气。你在开车时,其实做了很多的小决定,你在看报纸时,吸收了很多讯息,你跟同事或配偶寒暄都没花什么力气,也没有压力,就像散步一样。
一般来说,散步是件很容易而且相当愉快的事,尤其能边走边想事情。但是在极端的情况下,这两件事会争夺系统二有限的资源。你可以做一个简单的实验来确定这个说法。当你跟朋友很悠闲地散步时,请他用心算的方式告诉你23×78是多少,并且马上回答你。你会发现他几乎一定会停下来,伫足不动去做心算。我的经验是,我可以一边散步一边想事情,但无法一边散步一边去做需要大量短期记忆负荷的作业。假如我必须在时间的压力下去想一个复杂的论点,我会站住不动,宁可坐着也不要站着。当然,不是所有慢思考都需要像做心算那样集中注意力──我这一生中做过最好的思考,是在跟特维斯基散步时所想的。
假如我加快平常散步的速度,它会完全改变我散步的经验,因为转换到快速的步伐会使我周延思考的能力急剧下降。当我快步走路时,我的注意力会被维持快速步伐所吸引,我把思绪带到结论的能力会因此受影响。我所能保持最快的上山速度大约是14分钟走1英里,在这种速度下,我根本不会试着去想任何事情,除了努力沿着步道快速移动身体,还需要拥有心智的自我控制力,以抵抗想要慢下来的欲望。自我控制和特意的念头,显然会动用到有限的大脑资源。
对我们大部分人来说,大部分时候,维持一个合理的思绪,以及偶尔做一些费力的思考,都是需要自我控制的。虽然没有做过系统化调查,我怀疑,常常去转换作业并且加速心智作业,并不是一件愉快的事,人们会尽量避免这样做,这也是最少努力法则会变成一个法则的原因。即使没有时间压力,维持连贯的思绪也是需要纪律的。观察我在一个小时的写作时间里看了多少次电子邮件或是冰箱,可以合理推论,这是一种想逃避的欲望,并且下结论说,持续专注写作所需要的自制力,高于我能够轻易动用的自制力。
幸运的是,不是所有认知作业都是讨人厌的。人们有时候不需要透过意志力,就可以花很长的时间,付出大量努力。心理学家契克生米哈利 (Mihaly Csikszentmihalyi) 投入不花力气的注意力状态研究,他把这种状态叫做「心流」(flow),现在这个词已经变成一个心理学术语了。体验过心流的人,描述这个感觉是「一个完全不花力气的专注状态,你深陷其中,完全忘记时间、自己或手边的问题。」他们形容在这种全神贯注、忘却一切的喜悦是多么强烈,契克生米哈利把它叫做「最佳经验」(optimal experience)。从绘画到摩托车赛车,许多活动可以把人带进心流的境界,对我所认识的某些幸运的作者来说,甚至写一本书也是个最佳经验。心流把两个费力的形式分开了:集中注意力在作业上,及特意的控制注意力。以时速150英里的速度骑摩托车,和参加一场竞争激烈的西洋棋比赛当然非常花力气。然而,在心流的状态中,将注意力集中在这些令人专注的活动上,并不需要透过自我控制,因此反而释放出可转用于手边工作的大脑资源。
忙碌且筋疲力尽的系统二
现在大家都知道自我控制和认知努力是心智工作的形式。好几个心理学的研究都显示,如果人面临一项严苛的认知作业,同时受到诱惑的挑战,他比较会对诱惑屈服。假设实验者要你把一串七个数字记在脑中一到两分钟,并告诉你,你的首要任务是记住这些数字。当你把注意力放在这些数字时,他们端上两种点心让你选:一个是巧克力蛋糕,另一个是水果沙拉。证据显示,当你心中塞满了数字,你比较可能选择巧克力蛋糕。当系统二忙不过来时,系统一对行为有更大的影响力,而人喜欢甜食。
人在认知繁忙时,也比较可能做出自私的选择,使用性别歧视的语言,在社交情境做出表面肤浅的判断。系统二为了要记住和复诵这些数字,只好松开对行为的管控。当然,认知的负荷不是自我控制减弱唯一的因素。多喝几杯酒也有同样的效果,晚上失眠也会。习惯早起的人晚上的自我控制会比较差,夜猫子在早上的自我控制也会比较不好。太关心自己在某项作业的表现,有时反而会干扰表现,因为短期记忆中塞满了无意义的焦虑思绪。这个结论非常直截了当:自我控制需要注意力和努力。另一个说法就是,控制思绪和行为是系统二的责任之一。
心理学家鲍密斯特 (Roy Baumeister) 和同事做了一系列令人惊讶的实验,结果显示,所有自主性努力的形式,包括认知、情绪,或身体上的努力,都从一个共用的心智能源库抽取资源。他们的实验是序列性的作业,而不是同时性的作业。
鲍密斯特的团队一再发现,刻意掌握意志或自制力的行动很累人:假如你必须强迫自己做某件事,你会比较不愿意或不能够透过自我控制去面对下一个挑战。这个现象叫做「自我耗损」(ego depletion)。在一项典型的实验中,受试者被要求看完一部能引起情感共鸣的影片后,压抑自己的情绪反应。这些受试者后来在身体耐力测验中表现很差,他们必须用力握一个压力计 (dynamometer)──尽管不适感愈来愈强──看他们能握多久。前半段实验的控制情绪努力,降低了肌肉持续收缩所造成的痛苦耐受力。因此,自我耗损的受试者很快就受不了,投降不做了。在另一个实验里,受试者先吃对身体有益的食物,如萝卜和芹菜,同时要抵抗巧克力和高热量饼干的诱惑。然后再给他们做一些认知上困难的作业,结果他们比一般人更早放弃。
现在,已知会耗损自制力的情境和作业项目繁多,它们都涉及冲突并需要压抑自然的偏好,如:
避免去想白熊
抑制对令人激动的影片产生情绪反应
做一连串涉及冲突的决定
想要使别人留下深刻印象
对伙伴不好的行为做出仁慈的反应
(有种族偏见的人)跟不同种族的人互动
耗损指标的清单内容也是五花八门:
偏离原来的饮食习惯
因为购物冲动而超支
对挑衅过度反应
很快就放弃需用力气去做的作业
在认知作业和合理的决策上表现很差
这些证据颇具说服力:对系统二要求很高的活动需要自我控制,而施加自我控制会使人精力耗损而且不愉快。自我耗损跟认知负荷不同,自我耗损会使人丧失部分动机。你在一项作业中运用自我控制后,就不想再做下一个,虽然如果真的要做的话,你还是可以做。在一些实验中,如果提供强烈诱因,人们可以抗拒自我耗损的影响。相反的,当你必须在短期记忆中保有六个数字,同时做另一个作业,即使增加努力也是行不通的。因为自我耗损和认知忙碌是不一样的心智状态。
鲍密斯特团队最惊人的发现是,心智能量 (mental energy) 的想法绝不仅是个比喻而已。神经系统比身体任何一个部位消耗的葡萄糖都多。若把葡萄糖当钱币来比喻的话,费力的心智活动显然特别昂贵。当你主动做一个困难的认知推理,或做一个需要自我控制的作业时,你的血糖会下降。这个效应跟短跑选手在冲刺时,会把储存在肌肉中的葡萄糖拿出来用,使体内血糖降低一样。这个想法的明显意涵是,自我耗损的效应可以用摄取葡萄糖来抵消。鲍密斯特和他的团队做了好几个实验来确认这个假设是正确的。
在一个实验中,受试者看一部很短的默片,片中有一个女人接受面试。看完后,实验者请受试者解释她肢体语言透露出的讯息。当受试者在做这个作业时,一连串字慢慢显示在电脑萤幕,实验者特别指示他们不要去理会这些字。假如他们发现自己的注意力被字所吸引,就需要马上把注意力拉回来,重新集中在那个女人的行为上。大家都知道这个自我控制的作业会耗损自我。在参与第二个作业之前,所有受试者都喝一杯柠檬水。有一半的柠檬水因为加了葡萄糖而变甜,另一半的柠檬水是用代糖。接着,所有受试者都去做第二个作业,他们必须克服直觉的反应才不会做错。直觉式错误较常出现在自我耗损组中,喝了代糖柠檬水的受试者表现出预期的耗损效应,喝了葡萄糖柠檬水的受试者则没有出现耗损情况,因为大脑中血糖浓度获得补充,表现没有下降。我们需要更多时间和更多研究来确定,引起葡萄糖耗损的作业同时也会引起暂时性的警觉,使心跳加快,瞳孔放大。
最近《美国国家科学院院刊》(Proceedings of the National Academy of Sciences) 有一篇令人不安的报告,证实了判断上的耗损效应。受试者是以色列的八位假释委员,他们整天审核假释申请案。个案是以随机方式呈现,假释委员在每一个案子上花很少的时间,大约平均6分钟一个案子(预设决定是驳回假释,只有35%的通过率,每一个决定所花的确切时间有做记录,假释委员早上、中午、下午三次的点心时间也有记录)。实验者把获准假释的案子比照上次吃点心以后的时间画成图表,结果发现吃完东西后的通过率最高,大约是65%。在下次吃东西前大约两小时间,通过率逐渐下降,到再次吃东西之前,几乎是零通过率。你可以预期,这是个不受欢迎的结果,作者仔细检查并排除了许多替代的解释,对这数据所做的最佳解释却带来坏消息:疲倦和饥饿的委员往往会仰赖较容易的预设立场 (default position),即驳回假释要求。
懒惰的系统二
系统二的一个主要工作是监控系统一所「建议」的思想和行动,使其中一些可以直接表现在行为上,并且压抑或修改其他思想和行动。
例如下面这个很简单的问题,先不要去解题,请先听一下你自己的直觉。
一支球棒和一颗球要价1.10美元。
球棒比球贵了一美元。
请问球要多少钱?
一个数字马上出现在你心里,这个数字当然就是10美分。这个简单问题的特点就是它引起了一个直觉、吸引人的答案,而这答案是错的。现在做这题数学,你就会明白。假如球是10美分,那么总金额就是1.20元(球是10美分,球棒是1.10元),而不是1.10美元,正确答案是5美分。你可以假设那些答对的人,直觉的答案也有进入他们心中,只是他们设法抵抗直觉,没有采用。
佛烈德瑞克 (Shane Frederick) 和我一起研究基于这两个系统的判断理论,他用球和球棒这个问题去研究一个核心问题:系统二有多密切采用系统一的建议?他的推理是,我们知道,回答球要10美分的人,他的系统二并没有主动检查答案对不对便放行了。其实只要稍微想一想便知道答案不对。此外,我们知道,会回答直觉答案的人也没有察觉到一个显著的社会性线索,他们应该想,为什么有人会在问卷里问一个答案这么明显的问题。没有检查是大错特错,因为检查的代价很低,只要几秒钟的心算(问题难度不高),肌肉紧张一点点,瞳孔放大一点点,就可以避免令人发窘的错误[2]。那些回答10美分的人,显然是「最少努力法则」的遵从者。避开这个陷阱的人显然有比较主动的心智。
好几千个大学生都做了这个球棒与球的问题,结果令人震惊:哈佛大学、麻省理工学院、普林斯顿大学有50%以上的学生给了直觉的答案,也就是错误的答案。入学申请难度较低的学校,错误率更是高达80%以上。这个球棒和球的问题是我们第一次观察到本书中一再出现的一个主题:许多人太过自信,太信任自己的直觉。他们显然觉得,认知努力是不太舒服的事,会尽量避免。
现在我要给你看一个逻辑的辩论,两个命题和一个结论。请尽快决定,这个辩论是否合乎逻辑,结论可以从它的命题中得出吗?
所有玫瑰都是花。
有些花很快就凋谢。
所以有些玫瑰很快就凋谢。
绝大部分的大学生认为,这三段论法是合理的。事实上,它是不合逻辑的,因为玫瑰花可能不包含在很快凋谢的那些花中,就像球棒和球的问题一样,一个似是而非的答案马上进入你的心中,如果要反驳它,需要花力气,你脑海中一直坚持着「它是真的,它是真的!」使你很难去检查它的逻辑性,大部分人都懒得去仔细想问题。
这个实验对日常生活中的推理有着令人沮丧的影响,它显示,当人们认为某一个结论是对的时候,他们很可能也相信看起来支持这个结论的命题,即使这个命题是不周延的。假如系统一也参与其中,会先得出结论,才有命题。
请看下面这个问题,并且尽快回答。
密西根州一年有多少谋杀案发生?
这个问题也是佛烈德瑞克想出来要挑战系统二的。回答的「计谋」在于受试者是否记得底特律 (Detroit) 这个高犯罪率的城市位于密西根州。美国大学生知道这个事实,会正确指认底特律是密西根州第一大城。但是我们对事实的知识并不是全有或全无 (all-or–none),已知的事实在我们需要时,并不一定会来到我们心中。那些记得底特律位于密西根州的人,估计的谋杀率会比不知道的人高。但是大部分佛烈德瑞克的受试者被问到密西根州时,并没有想到该州有底特律这个城市。的确,他们对密西根州谋杀率的估计,比对底特律的估计来得低。
你可以归咎系统一和系统二都没有想到底特律。在提到州名时,城市有没有进入你的心中,因为这有一部分要仰赖记忆自动化的功能,而每个人在这个层面各有不同。有些人对密西根州很了解:住在那州的人比住在别州的人更可能找出许多关于该州的事实;喜欢地理的人会比专精于棒球统计数字的人找出更多该州的讯息;比较聪明的人对大部分事情的陈述可能会比别人丰富。聪明不单指推理能力,同时也是指在记忆中找到相关资讯,而且在需要时能部署注意力的能力。记忆的功能是系统一的属性之一,然而,每一个人都能选择慢下来,主动去搜寻记忆中所有可能的相关事实──就像他们可以放慢速度去检查「球棒与球」这个问题的直觉式答案。特意去检查和搜寻是系统二的特质,这个特质每个人很不一样。
球棒和球的问题、玫瑰花的三段论法,及密西根和底特律的问题,有一些共同之处。答错这些题目的人,就某些方面来说,是动机不足,没有尽力去试。任何一个可以申请进入一流大学的人,绝对有能力做前面两个题目,而且能反思密西根州,直到记起该州的主要城市是底特律,以及它的犯罪问题。要不是被诱惑接受最先进入心中看似合理的答案,这些学生其实可以解决更困难的问题。他们很轻易就满意答案,不再思考,这是相当令人忧心的事。「懒惰」对这些年轻人的自我监控和他们的系统二是严厉的判断,但是这个判断并没有不公平。那些避开知识怠惰之罪的人可以称为「投入」(engaged)。他们比较警觉,在学术和知识上比较活跃,比较不愿意满足于表面上吸引人的答案,对自己的直觉比较存疑。心理学家史坦诺维胥会认为他们比较理性。
智慧、控制和理性
研究人员用很多种方法研究思考和自我控制之间的关连。有些是用询问相关的问题来处理:假如按照自我控制和认知能力对人们进行排序,他们在这两种排序上会处于类似的位置吗?
心理学史上最有名的实验之一,是米邱尔 (Walter Mischel) 和他的学生让四岁孩子处在残酷的两难情境。他们让孩子选择要马上吃一块巧克力饼干,还是等15分钟,可以吃两块巧克力饼干?孩子会被单独留在房间里,面对桌上的两样东西:一块饼干,和一个可以随时呼叫实验者,表示愿意接受这块饼干的摇铃。如同对实验的描述:「这个房间里没有玩具,没有书、图片,或任何可以令小孩子分心的东西。实验者离开了房间,十五分钟以后才回来,而孩子不是选择摇铃,就是吃掉了饼干、站起来,或是表现出难过的迹象。」
实验者在单向镜 (one way mirror) 后面观察孩子的行为[3],记录小朋友单独在房间行为的影片,每次都能使观众哈哈大笑。有一半的孩子设法把注意力从诱惑人的饼干移转开来,成功等待了15分钟。十或十五年以后,能够抵抗诱惑的孩子和那些无力抗拒者的表现,差距开始拉大。可以抵抗的孩子在认知作业上有比较高的执行控制力,尤其是有效地重新配置注意力的能力。他们长大以后,比较不会吸毒。四岁时,自我控制能力较强的孩子,在智力测验上的分数也比较高,这种智能上的差异相当显著。
奥瑞冈大学 (University of Oregon) 的研究团队用好几个方法探索认知控制和智慧之间的关系,包括用增进控制注意力的方式来提升智商。在五个40分钟的实验过程里,他们让四到六岁的孩子玩各种特别需要注意力和控制的电脑游戏。在一个练习里,孩子们用摇杆追踪一只卡通猫,把牠移到草地上,同时避开泥泞区域。草地慢慢缩小而泥泞区域慢慢扩大,愈来愈需要正确的控制。这些测验发现,训练注意力不但改善执行控制力,非语言的智力测验成绩也提升,效果可以维持好几个月。这个团队的其他研究找出涉及控制注意力的特定基因,让我们看到教养孩子的方式也会影响这个能力,并且证明,孩子控制注意力的能力跟控制情绪的能力有密切关系。
佛烈德瑞克建构了一个认知反思测验 (Cognitive Reflect Test),包含了球棒和球的问题,和两个其他问题,他选这两个是因为它们也会得出令人信服却错误的直觉答案(问题请见第五章)。他接着研究得分非常低的学生──系统二监控能力较不好的这群学生──发现他们习惯以最先进入脑中的答案作答,不肯再多花一点工夫检查自己的直觉。对直觉照单全收的人,往往会接受系统一提供的其他建议。尤其在他们冲动、不耐烦,急于立刻得到满足时。例如63%的直觉回答者说,他们宁愿这个月就有3400元,也不愿等到下个月拿3800元。正确解决三个问题的人中,只有37%是如此短视,宁可现在就拿3400元。当询问他们愿意付多少钱,以限时专送方式隔天就拿到订购的书时,在认知反思测验上得低分的人,愿意付的钱是拿高分者的两倍。佛烈德瑞克的发现显示,我们心理剧中的两个角色有着不同的「人格特质」。系统一是冲动和直觉,系统二是理性和小心,但是对有些人来讲,也是懒惰的。我们在不同人身上看到相关的差异:有些人比较像系统二,有的人比较像系统一。这个简单的测验后来成为懒惰思考的预测工具之一。
史坦诺维胥和他长期的研究伙伴魏斯特是最早介绍系统一和系统二的人〔他们现在改称第一类型 (type1) 和第二类型 (type2) 流程〕。史坦诺维胥和他的同事花了几十年研究不同的人在本书所关心的各种问题上,有什么样的不同处理方式。不同的人,他们用各种不同的方法问一个基本问题:为什么有些人比别人更容易受判断偏误的影响?史坦诺维胥在《理性和反思的心智》(Rationality and the Reflective Mind) 一书中发表结论,对本章主题提出大胆和独特的看法。他将系统二的两个部分做了清楚的区分。的确,这个区分如此明显,所以他称之为两个不同的「心智」。其中一个心智(他称之为演算 algorithmic)掌管慢的思考和高要求的运算。有些人在这类脑力作业上比别人好──他们会在智力测验上表现良好,并且擅长从一个作业快速有效地转换到另一个作业。然而,史坦诺维胥认为,高智商不见得会使人对偏见免疫。能不能对偏见免疫和另一种他称之为理性 (rationality) 的能力有关。史坦诺维胥对理性的概念,跟我前面所说的投入概念相似。他的核心论点是,理性应该要和智力分开,依他所见,粗略或「懒惰」的思考是反思心智的一个瑕疵,是理性的一项失败。这是个吸引人而且耐人寻味的想法。为了支持这个说法,史坦诺维胥和他的同事发现,球棒和球的问题以及其他类似问题,比IQ测验等传统智力测验更能显示出我们多么容易受认知错误的影响。时间会说明,智力和理性之间的区别是否会促成新的发现。
说到控制
「她持续努力工作数小时也不觉得吃力,她处在『心流』状态中。」
「在开了一整天的会议后,他的自我严重损耗。所以他回到标准的操作程序,而非彻底思考问题。」
「他压根儿就不想检查他说的话合不合理。他是早已习惯用懒惰的系统二,还是今天特别疲倦?」
「不幸的是,她往往把第一个进入她心里的话说出来。她可能也难以递延满足感。衰弱的系统二。」
04 联结的机器
在开始探索系统一惊人的运作之前,先看下面的字:
香蕉 呕吐
在刚刚一、两秒间,有很多事情发生。你体验到一些不愉快的影像和记忆。你的脸因为显出厌恶而有些扭曲,你可能不自觉地把这本书推远一点。你的心跳加速,手臂的汗毛稍微竖起,汗腺被活化了。简单的说,你对这个令人厌恶的词所产生的反应,会是你对呕吐真正发生时的反应的减弱版,这一切都是自动发生,不是你能控制的。
你其实没有什么特殊理由要这样做,但是你的心智自动假设出一个时间上的序列,以及香蕉和呕吐之间的因果连结,形成一个概略的情节,在这情节中,香蕉使人呕吐。因此,你对香蕉产生了暂时性的反感(不要担心,它会过去)。记忆的状态以其他方式改变了:你现在非常容易辨识和回应与「呕吐」有关的物体和概念,例如恶心、恶臭或晕眩,以及跟香蕉有关的词,例如黄色、水果,甚或苹果和浆果。
呕吐通常是在特定的情况下发生,如宿醉或消化不良。你也非常容易辨认跟引起呕吐的其他原因有关的字,此外,你的系统一注意到,这两个字并列在一起很不寻常,你可能从来没有碰过,感到有些惊讶。
这一连串复杂的反应,快速、自动而且毫不费力地发生。你没有支配它,也无法阻挡它,它是系统一的作业,这个事件会发生是因为「联结活化」(associative activation) 的历程:在脑中一连串扩散的活动中,被唤起的一些想法激发了很多其他想法。这组复杂心智事件的重要特质就是它的连贯性 (coherence),每一个元素都是相连的,而且支持和强化其他元素。字会激发记忆,记忆又激发情绪,情绪又激发脸部表情和其他反应,例如一般肌肉紧张和避开的倾向。脸部表情和避开的动作会强化它们所连接的感觉,这个感觉又回过头来强化类似的念头。这些发生得非常快,而且全部同时发生,得到一个自我强化的认知、情绪和生理反应型态 (self-reinforcing pattern),这个反应型态是多样和整合的,这就叫做联结的连贯性 (associatively coherent)。
在一、两秒之内,你无意识地自动完成一件大事。从一件完全没有预期的事件开始,你的系统一尽可能把这个情况──两个简单的词奇怪地并列在一起──合理化,编了一个具因果关系的故事将两个词连结起来;它评估了可能的威胁(从温和到中度),并且为未来的发展建立一个情境,做法是帮你对可能发生的事件做好准备[1];它也为目前的事件建立一个情境,做法是评估这件事有多令人惊讶[2]。最后,你知道了过去,也为未来的发展尽可能做好准备[3]。
关于发生之事的一个奇怪特点是,系统一把两个并列在一起的词当做是真实世界的表征。你的身体做出了反应,只是没有像对真实事件的反应那么强,你情绪的反应和身体的退缩都是对这个事件的解释,就如同认知科学家近年来所强调的,认知是跟身体有关的,而不是仅仅用大脑而已[4]。
我们早已知道引起这些心智事件的机制:它是意念的联结。
我们全都从经验中了解,念头以井然有序的方式,在我们的意识中一个接一个出现。17和18世纪的英国哲学家都在寻找这个序列性规则的解释。苏格兰哲学家休谟 (David Hume) 在1748年时出版了一本《有关人类理解的探究》(An Enquiry Concerning Human Understanding),他在书中把联结的原则化约到三个:相似性 (resemblance)、时间和地点的连续性 (contiguity in time and place) 及因果关系 (causality)。从休谟的时代之后,我们对联结的观念已经大幅改变,但是他的三个原则还是探究联结的好起点。
我会从广义的角度来探讨这个想法,它可以是具体或抽象的,可由许多方式表达出来:可以是名词、动词、形容词,或是握紧的拳头。心理学家把念头看成广大网路中的节点 (node),叫做「联结记忆」,每一个念头都跟很多其他念头连结。联结的类型有许多种:有因果的联结(病毒→感冒);属性的联结(柠檬→绿色),所属类别的联结(香蕉→水果)。我们超越休谟的一点是,不再认为心智会逐一经历一连串有意识的念头。目前认为,联结记忆是大量立即同步发生。一个被激发的念头不仅仅激发另一个念头,而是激发了很多念头,然后这些念头又去激发很多其他念头。此外,仅有少数被激发的念头会进入意识。大部分联结思考是无声进行着,躲在我们意识的自我之后。我们对心智运作的认识有限,这个观念令人很难接受,因为跟我们的经验不合,但它是真的:你对自己的了解远比你自认的少得多。
神奇的促发作用
如同科学中常见的情形,我们在了解联结记忆机制上的第一个重大突破,是测量工具的改进。几十年前,研究联结唯一的方式是询问人们:「当你听到DAY这个字时,第一个进入你心中的字是什么?」研究者记录反应的频率,如night、sunny或long。在1980年代,研究者发现看到一个字后,这个字可以马上引起许多相关字的出现,而这些字出现的容易度是可以测量到的。例如你刚刚看到或听到一个字EAT(吃),然后马上请你填出SO_P,你会填SOUP(汤)而不会填SOAP(肥皂)。当然,假如你先听到或看到的是WASH(洗),你就会填SOAP,而不会填SOUP。我们把这叫做促发效应 (priming effect),并认为EAT这个念头促发了SOUP这个念头,WASH促发了SOAP。
促发效应有许多种形式,假如EAT目前存在你心中(不论你是否有意识地知觉到),不论人们是悄声说出EAT,或是以模糊的字型呈现出来,你都会很快辨认出SOUP这个字。当然,EAT不只有对SOUP有促发作用,它对跟食物有关的各种念头都有作用,包括叉子、饥饿、胖、节食和饼干。如果你刚到桌子会摇晃的餐馆解决了一餐,你可能对「摇晃」也会有促发。此外,被促发的念头也会再促发别的念头,不过效力比较弱。就像池塘中的涟漪一样,促发效应是从广大联结网路的一小部分开始扩散。绘制这些涟漪图是心理学研究最令人兴奋的研究目标之一。
研究记忆的另一个重大突破,是发现促发效应并不限于概念和文字。当然,你无法从意识的经验得知这一点,但是你必须接受这个不熟悉的看法:你的情绪和行为会被连你自己都未意识到的事件所促发。在甫问世即变成经典的实验中,心理学家巴夫 (John Bargh) 和他的同事请18到22岁的纽约大学 (New York University) 学生从五个字中选四个字造句,例如:finds、he、if、yellow、instantly。有一组学生一半的造句里包含跟老人有关的字眼,例如Florida、forgetful、bald、gray、wrinkle,做完之后,这组年轻学生要到走廊另一端做另一项实验,实验者测量他们穿越走廊的时间,果然如巴夫所预测的,以老人相关字眼来造句的这组学生,穿越走廊的时间比其他人显著缓慢。
这个「佛罗里达效应」(Florida effect) 包含了两阶段的促发,第一,这些字促发了「老年」的思想,虽然「老」这个字从来没有出现过;第二,这些关于老的思想,促发了行为,使人走得比较慢,因为老跟慢是联结在一起的。这些都是在不自觉的情况下发生的,事后问起这些大学生,没有一个人注意到这些字有共同的主题(老),他们都坚持自己没有受到那些字的影响,老年的念头从来没有进入他们的心中,然而,他们的行动却被改变了。这个显著的促发现象──念头影响行为──称为「意念动作效应」(ideomotor effect)。虽然你真的没有意识到,读这段文字也促发了你。假如你需要站起来去喝一杯水,你会比平常慢一点从椅子上站起来──除非你碰巧不喜欢老年人,研究发现你可能比平常更快一点起身!
在相反的情况下,意念动作效应也同样适用。德国一所大学进行的一项研究,跟巴夫和他同事在纽约所做的初期实验正好相反(镜像)。他们请学生在房间中走5分钟,每1分钟走30步,这是大学生平常步伐速度的三分之一。在这短暂的经验后,研究者发现,学生对跟老年有关的字辨识得特别快,例如forgetful、old、lonely,这个双向互惠的促发效应会产生连贯性的反应:假如你被促发而想到老年,你的动作就会比较像老年人;动作像老年人也会强化关于老年的思想。
双向互惠的连接在联结网路上很平常。例如,看到愉快的事会使你微笑,而微笑又会使你觉得愉快。请轻咬一枝铅笔,在牙齿之间停留几秒钟,橡皮那一头朝右,笔尖朝左。现在把橡皮那一头咬住,铅笔头直直向前,你会发现,一个动作使你皱眉头,另一个动作则使你微笑。他们请大学生咬住铅笔,然后替拉森 (Gary Larson) 的幽默卡通漫画《远方》(The Far Side) 评分[5]。微笑组的学生(不自觉自己有微笑)会认为卡通很幽默,而皱眉组的学生就比较不会。在另一个实验中,受试者被要求把眉头皱起来,结果这个皱眉动作强化了他们对饥饿儿童、吵架者、车祸伤患的情绪反应。
很简单、寻常的手势也会潜意识地影响我们的思想和感觉。在一个实验中,受试者从一副新耳机中听一些讯息,实验者告诉他们,实验的目的是测试新耳机的性能好不好,所以他们在听这段讯息时,要不断摇动头部,看声音会不会被扭曲。有一半受试者被要求前后点头,另一半受试者被要求左右摇头。他们所听的讯息是一篇广播电台的社论,点头者(这是肯定的表示)比较会接受社论的论点,摇头者就比较拒绝接受社论的论点。这些受试者也完全不自觉,只是做一个习惯性的动作,但是因为这个动作跟我们身体表达拒绝或接受的态度有关连,它就造成了判断上的差异。所以你现在了解,「不管你的感觉怎样,你的行为要冷静而仁慈」是一个很好的忠告,因为这样做,才有可能得到冷静而仁慈的回报。
引导我们的促发
我们认为自己是有意识而且自主地做出判断和选择,但是部分促发效应的研究发现威胁到这种自我形象。例如,我们大部分人认为投票是个特意的行为,反映出我们的价值观和对政策的评估。如果没有受到不相干事物的影响,我们投的票不应该受到投票所所在地的影响,但是事实上有受影响。2000年,亚利桑纳州 (Arizona) 一个针对投票模式所做的研究显示,当投票所设在学校时,选民对增加学校经费案的支持率,远高于投票所设在附近的其他地点。另一个研究显示,让选民看着教室和学校置物柜图片投票,也会增加选民赞成学校经费案的比例。图片的效果大于父母亲和其他选民对受试者的影响。促发效应已经从最开始时提醒人们,老年会使他们走路比较慢,变成进入我们生活的每一个角落了。
跟金钱有关的提醒则会产生一些不太好的效果。有一个实验是给受试者看五个字,请他们从中选择四个字造出跟钱有关的句子(如high a salary desk paying造句成a high-paying salary)。其他的促发则微妙得多,包括背景中出现离题的金钱相关物体,例如桌上一叠「大富翁」(Monopoly) 游戏假钞,或一张张漂浮在电脑萤幕保护程式水面上的纸钞。
被钱促发的人比没有被钱联结促发的人更独立,他们在尝试解决一个很困难的问题时,坚持花了几近两倍长的时间后,才开口向实验者求救,这清楚证明了,金钱增强了人的自我依赖 (selfreliance)。被金钱促发的人也比较自私:他们比较不愿意花时间帮助另一个假装不懂该怎么进行这项实验的学生;当实验者不小心掉了一把铅笔到地上时,那些用钱促发组(不自觉)的受试者不太愿意帮忙捡铅笔。在同系列的另一个实验中,实验者要介绍另一个人跟受试者认识交谈。当实验者去接这个人过来时,他请受试者帮忙先把场地的椅子排好。结果,用钱促发的那一组受试者把椅子排得很开,两张椅子间隔118公分,而其他一般受试者只间隔80公分。这显示,受金钱促发的大学生偏好单独一个人,不愿被打扰,不愿跟别人谈话。
这些发现基本上都显现一个共同点,即金钱会引发个人主义:不愿意跟别人在一起,不愿意依赖别人,或接受别人的要求。做这个实验的心理学家沃斯 (Kathleen Vohs) 并没有很详细讨论她研究的意义,而是留给读者自己去想。她的研究很有深度,并显示生活在一个不断提醒金钱的文化中,金钱会以我们不了解、也不会引以为傲的方式塑造我们的行为和态度。有些文化常常提醒人民要尊重他人,有些文化经常向人民提醒上帝的存在,有些社会用大量的领袖相片来促发人民的服从,难怪独裁社会中到处都看得到国家领导人的相片,这不但会让老百姓感到「老大哥在监视你」,同时还会减少人民自发的想法和独立的行动。
促发研究的证据显示,提醒人们死亡率会增加他们对威权想法的赞同,这又会强化对死亡的恐惧。其他实验则确认了佛洛依德对于象征和比喻是潜意识联结在一起的看法,例如,想想W__H和S__P这两个模棱两可的字,要是最近被要求回想自己做过的一件羞愧的事情,人们会把这个字填成WASH和SOAP,比较不会看成WISH和SOUP。此外,光是考虑要在同事背后捅一刀,就会使人倾向去买肥皂、消毒水或洗洁剂,而不会去买电池、果汁和糖果,这个冲动被称做「马克白夫人效应」(Lady Macbeth effect)。
人们会特别清洗涉及罪恶的身体部位。有一个实验是要受试者在电话或电子邮件中对一位想像中的人物说谎。然后请他们去选自己想要的产品。在电话中说谎的受试者会选漱口水,在电子邮件中说谎的受试者则会选择肥皂。
当我们对听众描述促发研究时,一般的反应是不相信。这并不令人惊讶,因为系统二自认为总管,它知道我们做选择的原因。你心中可能会想,对情境进行这么微不足道的操弄,怎么可能产生这么大的效果?难道这些实验证明,我们完全受环境随时提供的刺激所左右吗?当然不是,促发效应很强[6],但是不见得影响范围很大。假如投票所是在学校中,而不是在教堂,在几百名选民中,只有一些一开始不确定偏好的人[7],在学校议题上会做出不同的选择──但是,只要少数几个百分点就可以推翻选举结果。
不过你应该注意的想法是:要相信相关的研究结果。这些结果不是假造出来的,也不是统计上的偶然巧合,你不得不接受这些研究的主要结论都是事实。更重要的是,你必须接受,关于你的部分都是真的。假如你的电脑萤幕保护程式是漂浮的纸钞,你就比较不会认真帮掉笔的陌生人捡起笔。你不相信这些结果对你适用,因为它跟你的主观经验不合。但是你的主观经验主要是系统二告诉自己发生了什么事,促发现象则来自于系统一,你无法有意识地知道系统一在做什么。
在英国一所大学办公室的茶水间进行的实验,最能够证明促发效应,我就以这项实验来总结。多年来,这个办公室的成员自己投钱到「诚实箱」(honesty box),支付他们喝咖啡或茶的费用,茶水间墙上贴有茶和咖啡的价格。有一天,价目表上方出现了一张海报,里面没有警告,也没有解释。连续十周,每一周有一个新的影像呈现,有时是花,有时是直视着观看者的一双眼睛。没有人提到这个新的装饰物,但是诚实箱里的钱却有显著的改变。图4为海报与人们投入诚实箱中的金额(相对于人们花掉的金额)的关系。这值得仔细研究一下。在实验第一周(在图4最下面),是一双眼睛看着喝茶或喝咖啡的人的海报,那一周平均投入诚实箱的钱是平均每公升牛奶有70便士 (pence);第二周,海报图案变成花卉,诚实箱平均金额掉到只有15便士。这个趋势持续着。平均来说,在「眼睛」周,办公室同仁投下的金额是「花卉周」的3倍。显然,用纯粹象征性的提醒物来提醒人们,他们正受到监视,会使人们改善行为,此时,一如我们的预期,这个效果是在没有任何自觉下产生的,你现在相信你也会落入相同的行为模式吗?
图4
几年前,心理学家威尔生 (Timothy Wilson) 写了《佛洛依德的近视眼》(Strangers to Ourselves) 一书(英文书名的意思是「陌生的自己」)。现在你已经认识你身体里的陌生人,它很可能控制你大部分的行为,虽然你几乎不曾看过它。系统一提供的印象常常变成你的信念,是你冲动的来源,这冲动通常变成你的选择和你的行动。系统一对你周遭发生了什么事,把现在和不久之前,以及现在和对未来的期望连接起来,提供一个内隐的解释,它包含对这世界的认知模式,能持续评估事件是正常还是意外的。它是你快速判断而且常是正确直觉判断的来源。它在做这一切时,你并不知道。下一章会看到,系统一也是许多直觉系统化错误的来源。
说到促发
「看到这么多穿制服的人,我不会想到创造力。」
「这世界远比你想的更不合理,连贯性主要是来自你心智运作的方式。」
「他们是蓄意去挑毛病,果然被他们挑到了。」
「他的系统一建构了一个故事,他的系统二相信了,这会发生在我们每一个人身上。」
「我强迫自己微笑,这样我真的觉得比较好过。」
- 香蕉本来不会使人呕吐,但是因为这两个词并列的关系,现在你觉得说不定有这可能性,你对这「完全不可能」的接受度就进步了一点,变成「说不定有可能性」了。

- 惊讶程度就代表了你原来认为它们不应该有因果关系的,这就是捕风捉影会伤害人的原因。

- 如果随便把两个字并列,就能得出这么多讯息,「有笔如刀」的杀伤力就可想而知了。

- 这就是马克.强森 (Mark Johnson) 所说的「身体内含的认知」。认知不是只有概念和知觉,它还有身体的成分在内。

- Gary Larson是美国公认最有创意的漫画家,像台湾的CoCo一样,他的漫画全世界报纸都有连载,包括台湾的英文《中国邮报》(China Post),真是红得不得了,是美国学生的偶像。

- 很强 (robust) 是说,即使实验环境不理想,效果还是会出现,例如在授课班上做促发效应的实验,效果还是会出现,虽然混淆变项会比在实验室中多得多,但效果仍然可见。

- 即我们台湾所讲的「中间选民」。

05 认知放松度
不论在有意识或是无意的时候,大脑都不停地做多重运算。这些运算不断地更新一些重要问题的答案:有什么新鲜事发生了吗?有威胁出现了吗?一切进展都顺利吗?我是否应该注意别的事?我需要花更多力气来做这件事吗?你可以将大脑想成飞机驾驶舱,里面有许多仪表告诉你每一个重要变项目前的情况。系统一会自动评估当时的情况,系统的功能之一就是决定是否需要系统二更多的协助。
其中,有一种仪器测量认知放松度 (cognitive ease),范围介于「容易」和「困难」之间。「容易」是说事情进行得很顺利──没有威胁,没有重大情事,没有必要去转移注意力,或投入更多的精力。「困难」表示问题出现了,需要系统二支援,你感觉到认知紧张的使劲 (cognitive strain)。认知紧张是受到目前费力程度和未被满足的需求两者的影响。令人惊讶的是,认知放松的过程与多种输入和输出活动的网路相联结。图5即解释此过程。
图5说明,当一个句子是印刷清晰、被多次重复,或已深植于脑海,你就可以在认知放松的状态下,顺畅地解读出来。你在心情好时听一个人说话,或当你嘴里轻咬着铅笔,迫使你「微笑」时,你会感到认知放松。相反的,当你在读印刷不清楚、颜色褪淡的说明书,或是句子冗长、用语复杂,或者心情不好,甚至在皱眉头时,你会感受到认知紧张的状态。
图5
造成这些认知放松或紧张的各种原因会互相影响。当你处于认知放松的状态时,有可能心情不错,因此会喜欢你看到的东西,相信你听到的讯息,并信任你的直觉,因为你觉得目前的情况是很舒适而熟悉的。你的思想可能相对随意。当你感到认知紧张时,你会比较警戒和多疑,会花更多力气在你做的事情上,并觉得不太舒服,但比较不会犯错,你会比平常更没有创意与直觉。
记忆的错觉
错觉这个词会让人联想到视觉的错觉,因为我们都熟悉那些令人产生误解的图片。但是视觉并非唯一产生错觉的地方:记忆也会有错觉发生,思考更是如此。
史登比尔 (David Sternbill)、比高兹基 (Monica Bigoutski)、提拉纳 (Shana Tirana) 这些都是我刚刚编造出来的名字。假如你在接下来几分钟看到这些名字,你很可能会记得在哪里看过。你知道并且记住一阵子,这些不是什么名人的名字。但是假设好几天以后,我给你看一长串人名,里头包括这几个人名,还有其他你从来没有听过的新名字,你的任务是把你认得的人名勾出来。你就可能以为史登比尔是位名人,虽然你不知道在哪里看过他的名字,但是你猜很可能是在电影、运动或政治相关情境中看过他的名字,所以他可能是位名人。第一个在实验室中展示这种记忆错觉的是心理学家雅各比 (Larry Jacoby),他在〈一夜成名〉(Becoming Famous Overnight) 这篇论文中谈到怎么诱使这个现象发生。一开始时,请你先问问自己:你怎么知道某一个人是否有名?对于爱因斯坦、波诺 (Bono)、希拉蕊.克林顿 (Hillary Clinton) 等这些真正有名的人,你脑海中会为他们建立一个讯息心智档案。但是你的脑海中,不会有史登比尔的档案,假如你只是几天前见过他的名字的话。你只会有一种熟悉感──似乎在什么地方看过这个名字。
雅各比很巧妙地阐述了这个问题:「熟悉感对过去发生的事 (pastness) 有着简单而强烈的感觉,这种感觉是对先前经验的一种直接反应」,这个「过去的感觉」就是一个错觉。真相是,史登比尔的名字会看起来熟悉,因为你较容易辨识出它来。以前看过的词再度看到时──无论是在你眼前一闪而过或在嘈杂的环境中让你指认,曾经看过的词会比其他词容易辨识,也会辨识得比较快(大概快几百分之一秒)。简单的说,当你指认曾看过的词时,你会体验到认知放松,正是这种放松的感觉,让你觉得熟悉。
图5指出测试这个观点的方法。请选一个完全新的词,写大一点,让它容易辨识,比较容易有过去看过的感觉。的确,假如这个新字在测试前,很快地在你眼前闪过(即使只有几毫秒的时间),或是这个词比其他词的轮廓对比更鲜明,你就可能觉得这个新词很熟悉。这种情形在相反的情况下也适用。想像你正在看一串模糊的单字列表,有些字严重模糊,有些字还好,你的任务是挑出印得比较清楚的字来。这时,你最近才看过的字会显得比较清楚,就如图5所示,引发认知放松或紧张的各种方法是可以互换的,你自己不知道究竟是什么造成认知放松或紧张,这正是熟悉感造成错觉的原因。
真相的错觉
「纽约是美国的大城」、「月球围绕着地球公转」、「鸡有四条腿」,在这些句子中,你很快地接收到许多讯息。在读过这些句子后,你马上就发现头两句是对的,最后一句是错的。请注意,「鸡有三条腿」比「鸡有四条腿」更容易判断出是错的,你的联结机制对四条腿的判断会相对缓慢,因为许多动物都有四条腿,或许超级市场也买得到四支包成一包的鸡腿。系统二负责过滤讯息,或许会提出疑问:纽约那句会不会太简单了?或许该查一下「公转」是什么意思。
请回忆一下,你最后一次考驾照的情况。驾驶三吨重的车辆需要考特别的驾照吗?这题是对还是错?或许你很用功准备,记得答案在哪一页的哪个位置,以及问题背后的逻辑。当我搬到别州时,我可不是这样准备驾照考试的[1],我的方式是赶快把那一州的规则拿来看一遍,然后努力祈祷。从多年的驾驶经验中,我知道一些规则,但还是有很多问题我不知道答案,我只有依赖认知放松。假如这答案觉得熟悉,我就假设它可能是对的;假如某个答案看起来生疏(或太过极端),我就会排除它。这种熟悉感是来自系统一,而系统二则依照熟悉感做出对或错的判断。
图5带给我们的教训就是,假如我们是基于认知放松或紧张做出判断的话,可预测的错觉一定会发生。任何使联想机制运作得更轻松、更顺畅的事物,同时也会使我们产生偏见。要使人们相信谬误的方法就是不断重复,因为人们很难分辨熟悉感和真相。独裁政府和行销人员很清楚这点,但是心理学家发现,你不需要重复整个事件或想法,只要重复一部分,人们就可能相信你的话。经常听到「鸡的体温」这句话的人,比较容易接受「鸡的体温是62度」的说法(或是任何随意编造的数字)。只要熟悉句子中的某个片语,就会使整句话听起来很熟悉,也就容易接受这句话是真的。假如你不记得在哪里听过这句话,又没有办法跟其他已知事物连接起来,你就只能依赖认知放松的感觉,别无他法了。
如何写出具说服力的讯息
假设你必须写一则让人信服的短讯,当然,你的讯息一定要是真的,但是,人们未必相信。你利用认知放松来帮助自己是很合理的。真相错觉 (truth illusions) 的研究提供了很多方法让你可以达到这个目的。
一般的原则是任何缓解认知紧张的做法都有效,所以,你应该先想办法把易读性增至最大,请比较下面两个句子:
希特勒生于1892年
希特勒生于1887年
这两句话都是错的(希特勒是生在1889年),但是实验显示,人们比较会相信第一句话。假如你的讯息是要印出来的,请用品质较好的纸,使字和背景的对比度加大。假如你要印成彩色的,鲜蓝或大红色的字会比黄、绿或浅蓝色更容易让人相信内容的真实性。
假如你希望别人认为你是可靠、聪明,有智慧的,请不要用复杂的语言,尽量用简单的句子来表达。我在普林斯顿大学的同事欧本海默 (Danny Oppenheimer) 写了一篇论文反驳一个在大学生中流行的迷思(很多教授都对此事印象深刻)。他在〈不顾需求为显示博学而滥用华丽词藻的后果:不必要使用长句的问题〉(Consequences of Erudite Vernacular Utilized Irrespective of Necessity:Problems with Using Long Words Needlessly) 的论文中指出,用虚情假意的语言来表达熟悉的想法是没有智慧、可信度低的象征[2]。
除了要维持讯息简单,还要使它容易记住。把你的想法写成诗或韵文,别人比较会相信你的话。有一个实验是请受试者阅读几十个不熟悉的格言,例如:
同仇敌忾,Woes unite foes.
滴水穿岩。Little strokes will tumble great oaks.
知过能改,善莫大焉。A fault confessed is half redressed.
另一批学生则读不押韵的格言:
Woes unite enemies.
Little strokes will tumble great trees.
A fault admitted is half redressed.
结果,有押韵的句子被受试者评为较有智慧,见解高超。
最后,假如你要引用一个人的话,请选名字容易读出来的。有一个实验是请受试者依两家投资经纪公司的报告来评估该不该投资到一些虚拟的土耳其企业上。对每一家企业他们都提供两份报告,一份来自名字容易念的经纪公司(例如,Artan),一份来自不好念的经纪公司(例如,Taahhut),两家公司给的报告内容不尽相同,有些出入。照理说,投资者应该是把两份报告综合起来评估才对,但事实不然;受试者比较相信名称好念的公司的报告,比较不相信名称不好念的公司的报告。请记住,系统二是很懒惰的,要花心力的工作是它不想做的。所以,你的讯息一定不能让系统二觉得要花力气去做苦工,包括要避开难念的名字。
这些都是很好的忠告,但是不要高兴过头,假如你的讯息明显不合理,或跟听众熟知的事实相反,即使是高品质的纸张、鲜艳的颜色、押韵或简单的语言也不能提高讯息的可信度。做这些实验的心理学家并不认为老百姓是愚蠢、无知的;心理学家认为,我们的生活大部分是受到系统一的印象所引导,但我们通常不知道系统一的印象从何而来。你怎么知道那句话是真的?假如它合乎逻辑,或跟你的信念或偏好有很强的连结,或是来自你信任或喜爱的讯息来源,你就会感到认知放松。问题是,还有别的因素会使你感到认知放松──包括字型、字体、纸张的品质、有没有押韵,你无法轻易追踪这放松感觉的来源,这就是图5要表达的:放松或紧张的感觉可由许多原因引起,很难厘清。虽说很困难,但也不是不可能;假如有够强的动机,人们还是可以克服一些导致真相错觉的外在因素。不过,在大多数情况下,懒惰的系统二会采取系统一的建议,如常度日。
认知紧张与系统二的努力
在讨论联结的连贯性时,联想关系的对称性是最重要的主题。像我们前面所谈到的,轻咬铅笔或把球放在皱起的眉心,来使自己微笑或皱眉时,也感受得到平时微笑和皱眉时表达出来的情感。这个自我强化的互惠作用,在认知放松的研究中也有发现。一方面,如果系统二需要努力工作,我们就会感到认知紧张;另一方面,不管是什么原因引起的,当你感到认知紧张时,便会启动系统二,把人们对解决问题的态度从随意直觉的模式转换到专注、分析的模式。
前面提到的球棒和球的问题,就是测试人们习惯用第一个浮现脑中的答案来回答问题,而不去检视它的正确性。佛烈德瑞克的认知反应测验就包含了球棒与球的问题和其他两个问题,因为它们都会立刻引发错误的直觉答案。其他两个问题如下:
假如5台机器能在5分钟制造出5个三角锥,那么,100台机器要多久才能制造出100个三角锥?
100分钟 或 5分钟?
湖中有一些布袋莲,每天布袋莲会长大一倍,假如要花48天才能把整片湖面盖满,请问把湖面盖覆半满要多少天?
24天 或 47天?
这两个问题的答案在本页的下方[3],研究者找了40名普林斯顿大学的学生来做这个认知反应测验,一半的受试者看到的题目字体很小,而且印在暗灰色的纸上。虽然可以看得见题目,但是看得很吃力。结果显示,看正常大小字体的受试者有90%至少会错一题,但是看灰底小字题目的受试者只有35%犯错。字印得愈不清楚,表现得愈好。这是因为,不论认知紧张是什么因素造成的,都有可能启动系统二来拒绝系统一的直觉建议。
认知放松的乐趣
〈心智放松会使微笑浮上脸庞〉(Mind at Ease Puts a Smile on the Face) 这篇论文提到一个实验:受试者很快地浏览一些物体的图片,有些图片在整体出现之前,轮廓会先出现,受试者比较容易辨识出这些物体。但是这些轮廓呈现的时间短到连受试者常常无法察觉到。实验者用测量脸部肌肉脉冲 (impulse) 的方式来测量情绪的反应,因为脸部表情有时变化太快、太细微,肉眼经常观察不到。果然如预期的,人们在看到容易辨识的图片时,脸上会出现淡淡的微笑,眉头是舒展的。这显然是系统一的特性,认知放松和良好的情绪是联结在一起的。
正如我们所料,容易读的词也会引发正面的态度。容易念的公司名称在股票发行上市第一周,成绩往往比别家好,不过这个效应无法持久,还是要靠真本事。好读的股票代号(如KAR或LUNMOO)比难读的PXG或RDD表现要好。瑞士曾经做过一项研究,投资者相信名称好念的股票(如Emmi、Swissfirst,和Comet)比Geberit和Ypsomed这种绕舌的公司股票赚的钱多。
我们在图5有看到,重复性会引发认知放松的舒服和熟悉感。著名的心理学家载阳 (Robert Zajonc) 花了很多时间研究重复某种刺激跟后来引发的温和情感波动之间的关系,载阳把它称之为「单纯曝露效应」(mere exposure effect)。他在密西根大学及密西根州立大学的学生报上所做的实验,是我最喜爱的实验之一。实验的做法是:学生报头版有一段时间,都有一个像广告一样的小方块,里面是土耳其语的词(或土耳其语发音的字):如kadirga、saricik、biwonjni nansoma和iktitaf。这些字被重复刊登的频率各不同,有的字只有出现一次,有的字出现两次、五次、十次或二十五次(在A校出现最多次的字在B校就出现最少次)。学生报没有给任何解释,对学生的询问,学生报一律以「购买此广告版面者不愿透露身分」回答。
当这个神秘广告结束后,实验者请学生回答问卷,问他们对这些字的感觉是好还是坏。结果发现,相较于只出现一次两次的字,出现频率高的字会被学生评分为较有好感。在其他用中国字、脸孔,或不规则形状所做的实验中,也得到同样的结果。
单纯曝露效应并不依赖有意识的熟悉度。事实上,这个效应根本跟意识无关:即使这些词非常快速地呈现,在受试者根本没有意识到有看到的情况下,也能得到单纯曝露效应──受试者会喜欢出现频率高的字词或图片。这个原因现在你应该很清楚了,系统一对系统二没有意识到的事件印象起反应。的确,单纯曝露效应在受试者完全没有意识到、不知情的情况下,效果最强。
载阳认为,这种重复效应有生物演化上的重要性,所有动物都有。要在处处充满危险的大自然中生存,生物必须对新刺激很小心地给反应才行,牠一定是先戒慎恐惧,确定无害后,才大胆向前。演化对一只没有戒心的动物是毫不慈悲的;但是如果新刺激物是安全的,这个一开始的谨慎小心也得快快去除才行。载阳说,会产生单纯曝露效应,是因为如果一个刺激的重复出现并没有带来不好的结果,动物就得赶紧学会(别人吃了没死,下次我也可以吃),最后这个刺激就变成一个安全的讯号,安全的就是好的。当然这个论点不可能只适用于人类,为了证实这点,载阳的一个同事就给两组受精的鸡蛋听不同的音乐,当小鸡孵出来后,牠们只要听到还在蛋壳中所听到的音乐,就比较少发出紧张的叫声。
载阳对他的研究作了下面这段结论:
重复曝露的后果使生物在所处环境中得到立即的好处,生物因而能区辨物体和环境的安全性,这也是最原始的社会依附 (social attachment) 基础。因此,重复曝露成为社会组织和社会凝聚的基础──它正是心理和社会稳定的基础。
系统一正向情绪和认知轻松之间的连接有很长的演化历史。
放松、心情和直觉
在1960年左右,年轻的心理学家麦尼克 (Sarnoff Mednick) 认为,他找到了创造力的本质。他的想法很简单却强而有力:创造力是超强的联结记忆。他设计出联想力测验 (Remote Association Test, RAT),现在过了五十年,仍是研究创造力最好的测验。
简单举例如下:
农舍cottage 瑞士人swiss 蛋糕cake
你能找出一个字跟这三个字都有联结吗?你可能马上想到,这答案是「起司」(cheese)。现在试试:
俯冲dive 光线light 火箭rocket
这题就难多了。但是它有独一无二的正确答案,每一个会说英语的人都应该会知道,虽然不到20%的学生能在15秒之内想到答案。这个答案是「天空」。当然不是任意三个词都能联想到与三者有关的答案,例如「梦、球、书」就找不到一个大家都同意的答案。
最近,好几个德国心理学家的团队在研究联想力测验时,对认知放松有了重大发现。有一个团队提出两个问题:人们在答案出现之前,能否感知这三个词一定有一个共有的联想词?(即在答案出现之前便知道答案吗?)心情会不会影响答案的出现?为了测试这点,他们先分别请受试者花几分钟的时间回想生活中快乐和悲伤的事。然后给他们看一连串三个字的字组,一半是有解答的,如俯冲、光线、火箭;另一半是无解的,如梦、球、书,然后请他们尽快按键表示他们认为这三词组有没有相关联的字词,他们有两秒钟的时间可以猜。两秒实在太短了,来不及让正确的答案浮出心头。
第一个令人惊讶的发现是,受试者猜对的比率比他们随机选出答案的正确性要高。我觉得这个结果很令人惊讶。显然联想机制有送出微弱讯息,使得认知放松,这个机制早在词组之间的共同联结被解析出来之前,就能「得知」三个词是有关联的。认知放松在判断上所扮演的角色,被另外一个德国研究团队所做的实验证实了:提高认知放松(如促发、清楚的字体、事先看到这个词等)能增加受试者看出关联的机率。
另一个重要的发现是,人的心情 (mood) 对直觉表现有强力的效应。这个实验计算「直觉指数」(intuition index) 来测量正确率。他们发现,让受试者回想愉快的事件,使心情变好,然后再做测验,可以使正确率提高一倍。更令人惊讶的结果是,不快乐的受试者完全无法完成这个直觉的任务,他们的猜对率跟随机猜测没两样。心情显然能影响系统一的运作:当我们不舒服或不开心时,便跟直觉失去了联系。
这些发现提供愈来愈多的实验证据,好心情、直觉、创造力、易相信和对系统一的依赖,是聚集在一起的;悲伤、警觉、怀疑、分析和努力是聚集在一起的。快乐的心情会解开系统二对行为的控制:当人们心情好时,直觉和创造力会增强,但同时也较不警觉,易犯逻辑上的错误。就像单纯曝露效应一样,这种关联性也有演化上的原因。好心情是事情进展顺利的信号,环境是安全的,你可以放下警戒心和武器;不好的心情表示事情进展不顺,可能有威胁存在,需要提高警觉。认知放松既是愉快感觉的原因,也是结果。
联想力测验告诉我们的,不只是认知放松和正向情绪之间的关连。请想一下这两个三字词组:
睡觉sleep 邮件mail 开关switch
盐salt 深deep 泡沫foam
你当然不可能知道,你在看第二组字词时,脸上露出微笑,因为这组字词能引起共同的联想(答案是「海」),只要测量你脸部肌肉的电流活动就能发现这点。这种微笑反应,出现在完全不知道共同联结是什么的受试者脸上;实验者只是给他们看直排的三个字词组,要他们读完就按键。看到一组相关联的词组,会产生认知放松,认知放松就会使你面带微笑。
好心情、认知放松和看出关联的直觉,用科学的术语来说,是相关的,但不一定有因果关系。认知放松和微笑是同时发生的,但是好心情真的会引发直觉反应吗?答案是肯定的。这个证据来自一个非常聪明的实验方法,现在愈来愈多人采用这方法。实验者先告诉一部分的受试者:「先前的研究发现,你从耳机中所听到的音乐,会影响情绪反应」,这个提示可完全去除受试者对于关联性的直觉反应。结果显示,三字词组出现后引起的短暂情绪反应(如果词组有关联,受试者会有短暂愉快的感觉;如果没有关联,则有短暂不愉快的感觉),确实是判断关联性的基础。系统一的影响是无所不在的。现在受试者的情绪变化是可期待的,而正因为情绪变化不足为奇,情绪与词组的连结就没有因果关系。
这个实验很成功,效果非常令人惊异。过去几十年间,我们对系统一自动运作的历程知道了不少,我们现在所掌握的知识在三、四十年前听起来会像科幻小说,远超出我们的想像。我们绝对不会想到,不易阅读的字体影响我们对真实的判断,还会提高我们认知的表现;也想像不到,我们对三字词组的认知放松连带引发的情绪反应,会唤起脑中对关联性的印象。心理学研究实在有长足的进步。
说到认知放松
「不要因为字体难以辨认,就把商业计划书丢到垃圾筒去。」
「因为它已经重复出现这么多遍,我们一定倾向相信,不过,还是从头到尾想一遍再决定。」
「熟悉了就会喜欢,这就是一种单纯曝露效应。」
「我今天心情非常好,这表示我的系统二比平常虚弱,我得更加小心。」
06 常模、惊讶与原因
我们已经介绍过系统一和系统二的主要特性和功能,尤其系统一介绍得很详细。我们每个人的大脑,都可以视为一台功能强大的电脑,以传统硬体标准来看,它不够快,但是足以用很大的网路系统把各种形式的想法和观点联结起来,也能把外面世界的结构在大脑中展现出来。大脑联结机制的活化扩散 (spreading of activation) 是自动进行的,但是我们(系统二)具有某种控制记忆搜寻的能力,可侦察到环境中吸引我们注意力的事件。接下来,我们要更进一步了解系统一的伟大功能和其限制。
从惊讶到习以为常
系统一的主要功能是维持并更新你个人世界的模式,呈现的都是常态下的思维。这个模式是由联想同步发生的事件、动作和结果所建构的;即使不是同步发生,也是在很短的时间一起出现。当这些连结形成并被强化时,这些被联结的想法和念头就形成生活事件的结构,它决定你对目前事件的解释以及对未来的期望。
惊讶的能力其实是精神生活中一个重要的层面,而惊讶本身是我们对世界了解和预期最敏感的指标。惊讶有两个主要型态,有些预期是主动而有意识的──你知道你在等待某一件事的发生。当时间迫近时,你会期待敲门的声音,因为孩子放学了。当门开时,你期待一股熟悉的声音,假如这个主动预期的事件没有发生的话,你会觉得很惊讶。被动预期的事件类型就多了很多,你不会等待它们,但是当事件发生时,你不会感到惊讶,这些是通常在正常情境会发生的事,只是尚未达到主动预期的程度。
有一件事可能会使重复出现较不令人惊讶。许多年前,我跟太太去澳洲的大堡礁度假,岛上只有四十个客房,当我们下楼去吃晚餐时,我们很讶异竟然会在此地遇见熟人。我们热情地向心理学家约翰打招呼,双方都说怎么可能在此相遇,这机率太小了。约翰第二天便离开小岛。两个礼拜以后,我们在伦敦的戏院看戏,灯暗,有个晚到的人坐到我旁边。当中场休息,灯再度打开时,我很惊讶地发现,那个迟到的人竟然是约翰!我跟太太后来聊到这件事,我们同时意识到两个事实:第一,剧院中相遇比第一次在岛上相遇更加巧合;第二,我们第二次遇见约翰的惊讶度比第一次低了很多。显然第一次的碰面改变了我们对约翰的看法。他现在是「我们在海外旅游时,碰到的心理学家。」我们(系统二)知道这是一个滑稽的念头,但是系统一使我们觉得,在陌生地方碰到约翰是件正常的事,假如我们遇见的不是约翰,而是其他熟人,我们会非常惊讶。不管你怎么去算机率,在剧院中遇见约翰绝对比遇见其他几百个朋友的机率更低,然而,我们却觉得遇到约翰很正常。
在有些情况下,被动预期会很快转为主动,像我们在另一个巧合中所见到的。许多年前,某个星期天的晚上,我们从纽约市开车去普林斯顿,就如长久以来的每一个周末一样。那天,我们看到了一件不寻常的事,路边有辆车起火燃烧。当我们下一个星期天经过同一路段时,又有一辆车起火了。我们发现,第二次看到车子着火时,没有第一次那么惊讶。现在这个地方变成「汽车燃烧的地方」。因为事件出现的情境相同,第二辆车起火燃烧就变成了主动预期。这件事发生后好几个月,甚至好几年,每当我们经过那里,就会想起火烧车事件,心里也准备好,预期看到另一辆车着火(当然,我们并没有再看到了)。
心理学家米勒 (Dale Miller) 和我曾经合写一篇文章来解释,一个事件是怎样被看成是正常,还是不正常。我现在用那篇文章中,我们描述「常模理论」(norm theory) 的例子来解释,不过我现在的解释已经有一点不一样了。
有一个人坐在高级餐厅中,随意观察隔壁桌的客人用餐。他注意到第一个客人喝汤时,皱了一下眉头,好像很痛苦的样子。接下来发生的几件事会因为这个观察而改变。当侍者碰触到刚刚那位喝汤的客人,使他吓了一大跳时,这个事件好像就没有那么令人惊讶。当另外一个客人从同一碗汤中舀一口来喝,立刻用手摀住嘴巴,以免叫出声音来时,好像也没有那么令人惊讶。这些事件和其他事件本应是不寻常的,现在看起来却显得正常。这是因为它重复了前面的那个事件,前面的事件被从记忆中提取出来解释后来的行为,就不觉得惊讶了。
想像你自己是餐馆中观察到这些现象的人,你看到第一个客人喝汤的反应时,你是很惊讶的;你对那个人被侍者碰一下就跳起来的反应也感到惊讶。然而,第二个不寻常事件会从记忆中提取出第一个事件来,两件事放在一起似乎就合乎情理了。这两件事符合一个型态,就是这个客人很容易紧张。从另一方面来讲,假如第一个客人尝了一口汤后,扮了鬼脸,第二个客人也不爱喝这汤时,这两个事件就会被连在一起,这碗汤一定很难吃。
「摩西带了多少种动物到他的船上?」发现这个问题问错了的人极少,后来心理学家把这现象称之为「摩西错觉」(Moses illusion)。摩西并没有带任何动物上方舟!诺亚才有。就像喝汤后扮鬼脸一样,摩西错觉可以用「常模理论」来解释。动物进入方舟是圣经中的一个场景,摩西也是圣经场景中的人物,你并没有预期他会出现在方舟上,但是提到他的名字并不会使你惊讶。同时,摩西和诺亚都有相同的母音,同样的音节数,就像三个一组的语汇产生认知轻松样,你潜意识把摩西和方舟联结在一起,所以很快使人就接受这个问题。如果把摩西用布希 (George W. Bush) 来取代,你就不会有这种错觉(只会觉得这是个很烂的政治笑话而已)。
当不符现在谈的东西出现时,系统会侦察到不正常,就像你刚刚经验到的,你并不知道在某些字之后应该接什么字,但是你知道「水泥」不符合句子的需求,它是不正常的。许多针对大脑的研究报告指出,系统对违反常态的察觉速度非常快,而且我们几乎感觉不到。最近有个研究,请受试者听一个句子:「地球每年绕着麻烦转」。大脑在「麻烦」这个奇怪的字眼出现的200毫秒之内,显现出很不一样的脑波型态。更了不起的是,当同一个人听到一个男人的声音说「我觉得我怀孕了,因为我每天早上都想吐」,也是同样快的反应;或是当一个上流社会的人说,「我背上有一大块刺青」,大脑会马上侦察到不正常。这表示,有一大堆关于世界的知识会立刻进入大脑中,我们才会这么快就察觉出不一致。一听到声音就辨识出,那是上流社会的口音,然后察觉到,一般来说,上流社会的人有一大片刺青是不寻常的。
我们能够彼此沟通,是因为我们拥有相同的世界知识和文字的使用习惯,当我说「桌子」而没有特别说明时,你知道我指的是一般正常的桌子,你非常确定桌面是平的,桌脚的数目比25个少很多。我们认定很多类别的东西都有常模,这些常模提供了背景知识使我们能马上侦察到不正常,例如,男生怀孕和上层社会人刺青。
为了解常模在沟通中扮演的角色,请看下面这个句子:「大老鼠爬上小象的鼻子」,我想你知道老鼠一般来说有多大,象一般来说又是多大,我知道你心中想的和我心中想的不会差太远。常模就是这个动物的典型或一般平均的大小,同时也包括这类别(老鼠或小象)中的变化范围和差异性,我们心中不大可能会有老鼠大于象的影像出现,虽然人有个别差异,但是谈到这两种动物时,我们都会有共同的影像──即老鼠比鞋子小,大象比沙发更大。系统一了解语言,也懂得常模的类别,并能辨明这些类别中可能价值的范围,以及最典型的例子。
看到原因和意图
「佛瑞德的双亲到得很晚,外烩师傅马上就要来了,佛瑞德很生气。」你知道佛瑞德为什么会生气,他生气不是因为外烩师傅马上要来了,在你的联结网路中,愤怒和不准时是连在一起的,有可能的因果关系;但是愤怒和期待外烩师傅却没有连接在一起。一个合理而一致的故事在你读到这个句子时,立刻就建构起来:你立即知道佛瑞德生气的原因了。找到这种因果的连接是了解故事的一部分,这是系统一自动操作的功能之一。系统二是有意识的自我,提供原因的解释,并且接受这样的因果关系。
塔里所着的《黑天鹅效应》说明了这个自动搜索因果的历程。他指出,海珊 (Saddam Hussein) 被捕时,美国公债价格开始上扬。那天早上,投资者显然是在寻找安全的资产,彭博新闻社 (Bloomberg News Service) 的头条是「美国政府债券上涨,海珊被捕可能不会遏止恐怖主义。」半个小时以后,公债价格下跌,头条变成「美国政府债券下跌,海珊被捕提高投资风险。」很显然的,海珊被捕是那天的重大事件,人们会自主搜寻原因形成思考,这个事件就变成那天市场涨跌的原因了。这两个头条似乎可以解释那天市场发生的事,但是,解释两个相抵触结果的一句话,其实等于什么都没有解释。事实上,所有头条标题都是为了满足人们对一致性、连贯性的需求:重大事件应该有其影响力,并带来后果的,而后果需要原因来解释它。由于我们对每天发生的事所知有限,系统一便把知识的碎片连接起来,组合成合理的因果关系。
请读下面这个句子:
在拥挤的纽约大街逛了一天后,珍妮发现她的皮夹不见了。
读过这个句子的人后来被要求做回忆的测验(他们同时也读许多其他故事),结果「扒手」跟这个句子的联结远大于「逛街」,虽然后者有在句子中出现,而前者没有。联结连贯性的规则告诉我们发生了什么事。丢掉皮夹(钱包)可能有很多不同的原因:皮夹从口袋掉出来,掉在餐厅中等等。然而,当皮夹搞丢、纽约、拥挤这几个字眼并列时,共同激发了皮夹是被扒手扒去的解释。在前面那个喝汤的故事中,不论是客人在尝一口后做鬼脸,或是第一个客人对侍者碰触到的极端反应,都让你对一开始的惊讶做联结连贯性的解释,整个故事也变得合理。
比利时贵族心理学家米夏特 (Albert Michotte) 在1945年出版的一本书(1963年被译为英文),推翻了几百年来对因果关系的思考方式,它一直回溯到哲学家休谟对念头联结的看法。过去大家普遍接受的看法是,我们从重复的观察中看到事件的相关性,从而推论出物理性的因果关系。我们时常看到一个运动中的物体碰触到另一个物体,这个物体马上开始移动,通常往同一个方向,不过不完全如此。这就和撞球的母球打到另外一颗球时的情形一样;也和碰触到花瓶,便掉下来打破了一样。但是米夏特有不同的看法:他认为我们看因果关系可以像看颜色那样直接。为了说明他的看法,他在纸上画了一连串就像在移动的黑色方块,一个方块碰到另一个方块,就马上开始动了起来。看的人知道方块之间并没有真正碰触到(因为是画在纸上),但是他们却有很强的「因果关系错觉」(illusion of causality)。当第二个物体马上移动时,他们会以为是第一个方块所引发 (launched) 的。实验显示,六个月大的婴儿看到这类序列事件就会产生因果关系的想法了,假如序列事件倒过来,他们会很惊讶。我们显然从一出生就准备好有因果关系的印象。这是系统一的作用。
在1944年,大约就是米夏特发表他的物理性因果关系时,心理学家海德 (Fritz Heider) 和西梅尔 (Mary-Ann Simmel) 用和米夏特类似的方法展现了意图性因果关系 (intentional causality)。他们拍了一部1分40秒的电影,里面有一个大三角形、一个小三角形和一个绕着打开了门的房子跑来跑去的圆,受试者看到大三角形在霸凌小三角形,并吓到旁边的圆,这个圆和小三角形联合起来把大三角形打败,他们也看到这些几何图形多半在门边互动,剧终则是个大爆炸。每个人都能感受到意图和情绪;只有自闭症孩子体验不到。当然,这一切都在你心中。你已准备好,甚至迫不及待认同这些几何图形,给他们人格特质和特殊意图,并把他们的动作看成个体特质的展现。在此,再次证实我们生来就准备好要做意图归因 (intentional attribution),不到一岁的婴儿就能指认霸凌者和被霸凌的人,并且期待追捕的人循走最直接路径,捉到他正在追的东西。
按自由意志行事的体验跟物理性因果关系是不同的,虽然是你的手拿起了盐罐子,但是你不会从物理性因果关系去想这件事,你会做这个决定是因为你想在食物中加些盐。许多人本来觉得他的心是他行动的来源和产生动作的原因,心理学家布隆姆 (Paul Bloom) 2005年在《大西洋月刊》(The Atlantic Monthly) 上发表了一个非常有争议性的文章,他说我们天生就有能力区分物理性和意图性因果关系,这一能力也解释了宗教信仰为何是全世界几乎都有的现象。他说「我们对物质世界跟精神世界的感知不同,这使我们可以想像没有灵魂的躯体及没有躯体的灵魂。」这两种因果关系使我们很自然地接受许多宗教中都存在的两个主要信念:无形的神是物质世界最终极的原因,而不朽的灵魂在我们活的时候,暂时控制我们的身体,当我们死后,灵魂也将离开躯体。从布隆姆的观点,这两种因果关系的观念是演化过程中分别塑造成的,宗教的起源也是建构在系统一上的。
因果关系的直觉是本书一再出现的重点,因为人倾向于把不对的因果思考应用到需要统计推理的情境上。统计的思考是把不同类别中的个案特质综合起来下结论。很不幸的是系统一没有能力做统计推理:系统二可以透过学习去做统计性思考,但是很少人接受过必要的训练。
有了因果关系心理学做基础,我决定用代理人去比喻心理历程。我有时把系统一当作有某些特性和偏好的代理人,有时又把它当作透过复杂的连接型态来表现真实世界的工具。这个系统和工具都是虚拟的,我这么比喻是因为它们符合我对因果关系的看法。海德尔的三角形和圆圈并不是真正的代理人──只是把它们想成代理人非常容易、也很自然。这样做比较不必费力思考。假设你(像我一样)觉得这种方式比较容易去想像心智活动是怎么回事,假如用人格特质和意图去想这两个系统的话,我并不想说服你这两个系统是真实存在的,就像海德尔并没有要你相信大三角形真的是霸凌者一样。
说到常模和原因
「当看到第二个申请人又是我的老朋友时,我就没有那么惊讶了。我们实在只需要一点点的重复,就能使新经验感觉起来很寻常。」
「在我们调查对这个产品的反应时,不要只注意平均值,应该考虑正常反应的整个范围。」
「她不能接受她只是运气不好,她需要一个有因果关系的解释。不然她会认为有人蓄意要破坏她的作品。」
07 骤下结论的机制
美国喜剧演员丹尼凯 (Danny Kaye) 有一句话,我从青少年期听到后就没有忘记。他这样形容一个他不喜欢的女人:「她最喜欢的姿态是得意忘形,她最喜欢的运动是马上跳入结论中。」我记得第一次想到这句话是跟特维斯基说统计直觉的理性的时候。现在我认为这句话对系统一的功能是个非常好的解释。跳入结论是非常有效率的事,假设这个结论是对的,而偶尔犯错的代价又是可以接受的话,快速下结论可以节省很多时间和力气。不然,骤下结论是很危险的,尤其在情势还不明朗或是错误的代价很高的时候。这是直觉错误最容易发生的时候,或许可以运用系统二的介入来加以避免。
图6
这三张图有什么共同点?这答案是它们都是模棱两可的图。你一定会把最左边的图读成A、B、C,最右边的图读成12、13、14,但请注意,左右两张图中间的那个字是完全相同的,你也可以解读成A、13、C或12、B、14,但是你不会这样读,为什么?同样这个形状在字母的情境中会读成B,在数字的情境中会读成13。情境帮助你决定每一个元素。形状虽模棱两可,但是你跳入结论来指认,根本意识不到你已赋予这模棱两可的形状一些解释了。
至于图中间的安 (Ann),你可能把她想像成一个满脑子都是钱的女人,正走进一个有银行柜台人员和保险箱的大楼。但是这个可能的解释并不是唯一的解释。这个句子模棱两可。假如前面句子是:「他们慢慢地从河中顺流而下。」你就会想像出完全不同的场景来。当你想到河流时,Bank[1] 就不会联结到金钱上,在没有明确的场景下,系统一会自己找一个最可能的解释,我们知道是系统一自行判断的结果,因为你并没有觉识到Bank这个字有两种选择,也没有意识到可能有另外的解释。除非你最近才去划独木舟,否则你去银行的时间一定比在河中飘流来得多,所以你根据经验化解了这个模棱两可。当我们不确定答案时,系统一会依据过往经历赌一个答案。这种下赌的规则是很明智的:最近发生的事件和目前情境在选择解释上占最重的份量。没有近期事件进入脑中时,远期记忆就会出来主导。你最早、最记得的经验一定是唱ABC字母歌,这首歌的开头一定是A、B、C,而不是A、13、C。
这两个例子最重要的地方是:你做出一个确定的选择,你自己却没有意识到。你脑中只出现一个解释,你从来不知还有另一个解释的可能性存在。系统一并不会去追踪它拒绝的其他可能性,甚至不记得曾有过其他可能性,被它拒绝的事实。有意识的怀疑不在系统一的资料库内,同时记住多种不合适的解释,需要付出努力,这并不是系统一的强项。不确定性和怀疑是系统二的责任范围。
信念的偏见和确定信念
心理学家吉尔博特 (Daniel Gilbert) 因着有《快乐为什么不幸福》(Stumbling to Happiness) 一书而非常有名,他曾经写过一篇文章,叫做〈心智系统如何相信〉(How Mental Systems Believe)。在这篇文章中,他发展出相信和不相信的理论,他把这源头一直追到17世纪的哲学家史宾诺沙 (Baruch Spinoza)。吉尔博特认为,了解一句话一定要先从尝试相信它开始:你一定要先知道这个想法如果是正确的,它是什么意思。只有这样,你才可以决定要不要去怀疑它。一开始相信的尝试,是系统一自动化的历程;包括建构最可能的解释,甚至一个毫无意义的句子也会引发人们最初的信任。请试试吉尔博特的例子:「白鱼吃糖果 (whitefish eat candy)!」你可能意识到一些鱼和糖的模糊印象,这个印象的产生过程,就是联结记忆自动搜寻鱼和糖的关联,从无意义中找出意义来。
吉尔博特把不相信或怀疑当作系统二的操作,他做了一个非常好的实验来支持这个看法。受试者看一些没有意义的句子,例如:「一个卡是一团火焰」(a dinca is a flame),几秒钟以后,出现「对」或「错」的字样。做完以后,受试者接受记忆测试,找出他们记忆中标示为「对」的句子来。这个测试还有一个条件,即受试者在过程中要记住一些数字,同时去做对或错的实验。系统二的干扰产生选择性的效应:它使受试者很难不相信错误的句子。在后来测试记忆时,这些筋疲力竭的受试者竟把许多错误的句子都当作正确的了。这个实验很重要:当系统二在忙的时候,我们就会随便相信所有事情。系统一好骗、又容易产生偏见,系统二是管理怀疑和不相信的,但是系统二有时候太忙,不忙时也很懒,所以有证据显示当人们很累或精力耗尽时,就容易相信空洞、没有说服力的话,例如人们在累时会相信广告中的话。
联结记忆使我们易有「确认偏见」(confirmation bias)。当人家问:「山姆很友善吗?」关于山姆各种行为的不同事件会来到你心中,若是问你:「山姆不友善吗?」你较难想起他的许多行为。特意去寻找支持的证据叫做「正向测试策略」(positive test strategy),也是系统二验证假设的方式。这跟科学哲学家的规则不同,科学哲学家认为,验证假设最好的方式是反驳它,人们(包括很多科学家在内)寻找支持他们信念的证据,来证实假设是否成立。系统一的确认偏见喜欢接受没有证据的建议和夸大的言词,假如你被问到在未来三十年中,加州发生海啸的可能性,你心中产生的影像很可能就是海啸的影像,跟吉尔博特无意义的句子「白鱼和糖果」一样;你会倾向于高估灾难发生的可能性。
夸张的情绪一致性──月晕效应
假如你喜欢总统的政策,你可能也会喜欢他的声音和他的外表。当我们喜欢一个人的时候,我们倾向于喜欢他的全部,包括那些你没有观察到的,这就叫月晕效应(当你不喜欢一个人的时候,你也会讨厌他所有的事)。这个名词在心理学上已经用了一百年了,却还没进入我们的日常生活中,真是可惜!因为月晕效应是个很好的例子,可以用来解释这种偏见在我们平时对人和事的看法上扮演的重要角色。系统一用比现实更简单、更一致性的方式来看这个世界。
你在宴会上碰到一个名叫琼恩的女人,发现她的个性很容易亲近,下次有人在问谁可以做些慈善公益时,她的名字就会从你心中浮起,你怎么知道琼恩是慷慨的呢?正确的答案是,你什么都不知道!因为你实在没有证据说,人缘好、随和的人就一定会从事慈善公益,但是因为你喜欢她,你想到她时,就会提取出喜欢的感觉,你也喜欢慷慨的人,透过这种联结,现在你相信琼恩是慷慨的了,你可能比以前更喜欢琼恩,因为你把慷慨这个好品德加到她令人愉悦的属性上。
慷慨的真正证据在琼恩的故事中是找不到的,你用你对她的感情(猜测的)来填补这中间的差距。在其他的情境下,证据是慢慢累积,第一印象产生的感觉会影响你对事物的解读。在一个经典的心理学研究中,艾胥 (Soloman Asch) 给受试者看两个人的描述,请受试者就他们的性格特征写评语:你怎么看艾伦和班?
艾伦:聪明-勤勉-冲动-爱批评-固执-嫉妒
班:嫉妒-固执-爱批评-冲动-勤勉-聪明
假如你像大多数人一样,你会比较喜欢艾伦,比较不喜欢班。前几项性格特征会改变后面出现特征的含义。一个固执的聪明人可能被认为是择善固执,或许还会引起别人的尊敬;但是一个嫉妒心强又固执的人,即使他很聪明,人家可能觉得这种人更危险。月晕效应可以化解模棱两可的情境:就像bank这个字一样,形容词「固执」也是一个模棱两可的字,要看情境怎么说。
关于这个主题有许多研究,有个实验是先请受试者考虑描述艾伦的头三个形容词,再考虑后三个形容词,实验者告诉受试者,这三个形容词是在形容另外一个人。当他们在脑海中形成艾伦和另一个人的影像后,实验者又问,有没有可能,这六个形容词是描述同一个人?大部分的受试者都觉得不可能。
我们对一个人个性的观察序列通常是随机的。然而,顺序的确很重要,因为月晕效应增加了第一印象的比重,很多时候,后面再进来的讯息已经没有用了。在我初当教授时,我是用一般大家用的方式来改考卷,我会挑一份出来改,阅完所有题目,算完总分,再改下面一个人的考卷。我后来发现,我的评分非常一致,开始怀疑我的给分有月晕效应。第一题的分数对整体成绩来说,份量太重。这个机制很简单:假如我给某学生的第一题高分,我就等于先相信他成绩不错,除非证据指出另一方向。因此,当我在后面几题读到模棱两可的句子时,我会替她解释她可能是对的意思,毕竟,一个在第一题答得这么好的人,怎么会在第二题犯这种愚蠢的错误呢?但是我这样做有严重的错误,假如学生只回答了两题,一题答得很好,一题答得不好,我最后可能打出不同的分数来,就看我是先改哪一题。虽然我告诉学生两题比重一样,但是我却不是这样打分数的,第一题在总成绩上占的比重较大,这是不对的。
于是我采取了新的做法,我现在会改完所有学生的第一题,再改所有学生的第二题。我确定我有把成绩写在考卷内侧,避免在改第二题时产生偏见(即使无意识的偏见我也避免),使第二题的分数不受第一题的影响。改用这种方法后,我注意到,我对自己改考卷的信心降低很多,我一直有种不舒服的感觉,那是以前没有过的。当我对学生第二题的表现很失望,翻到考卷背后登记分数时,我有时会发现,这个学生在第一题得到最高分,我注意到自己很想去改她的分数,缩短第一题和第二题之间的距离。我发现,不遵循这个简单法则是很难的。同一个学生问答题的分数差距很大,这种不一致性让我很挫折。
我现在对我自己改卷子的表现感到失望,也较没有自信,但是我了解这是一椿好事,它表示新的改卷子方式是比较好的,我以前感受到的一致性是假的,只是制造出一个认知放松的感觉。我的系统二也很高兴地接受最后的成绩,因为系统二的本性是懒惰的,我让第一题的成绩严重影响第二题的评分。我不会发现同一个学生有的题目回答得很好,有的回答得不好,因为没有发现,我就不会感到不舒服。现在我改用新方法,这个方法虽然比较好,但是它显露出我过去没有感受到的不舒服和不一致性。第二个方法好的原因是,我们不该用单一问题来测量学生学了多少,这是不恰当的评量方式,这也显现我给分的不可靠性。
我所采取减低月晕效应的方式,其实符合了一般性的原则:去除相关错误 (decorrelate error)!要了解这个原则如何运作,请想像我们向很多人展示装有硬币的玻璃瓶,要他们猜猜一个瓶子里有多少硬币。就如索罗维基 (James Surowiecki) 在他的畅销书《群众的智慧》(The Wisdom of Crowds) 中所说的,有些作业一个人去做效果不好,但是把所有人的意见综合起来,判断的正确性就会很高。有些人大大地高估了硬币的数量,有些人又低估了,但是把许多判断拿来平均时,这个平均值就相当接近正确值。这个机制很简单:所有人都看同一个瓶子,他们的判断都有一个共同的基础;但是从另一方面来说,他们的错误率却是每个人都不同的,在没有系统化的偏见之下,最后会互相抵消为零。不过这个错误减低的魔力只有在观察者是独立的,而且彼此的错误是没有相关的情况下才成立。假如观众都有偏见,那么所有人判断的聚集也不能减低错误。当你允许观众互相影响时,就等于减少样本数,样本数小时,团体估算的正确率就降低了。
如果要从不同来源的证据中得出最有用的资讯,你应该使这些来源各自独立,这个规则是好警察办案程序的一部分。当一个案件有好几个目击者时,在作证之前,不能允许他们讨论案情。这个目的不仅是防止有敌意的目击者共谋,同时可以防止没有偏见的目击者被别人影响,或影响别人。交换意见的目击者常会在证词上犯同样的错误,而减少了证词的价值。去除讯息来源的重复性绝对是个好主意。
独立判断的原则(以及去除相关的错误)在主持会议上也有立即应用的效果。任何组织的总裁都花很大一部分的工作时间在主持会议。一个简单的原则就能发挥作用:在讨论一个议题之前,请要求所有与会者简短地写下他们的观点。这个程序会使与会者的背景和多样性知识得到最大的发挥。传统的做法会使早发言者的意见占了太大的份量,迫使别人附和他的意见。
你所看到的就是全貌
我早年跟特维斯基一起工作时,最愉快的记忆就是他喜欢模仿大学时的哲学老师,特维斯基会用带有浓重德国口音的希伯来文咆哮着说:「你们一定不准给我忘记 (Primat of the Is)。」我到现在不知道这个老师说这句话的意思(我相信特维斯基也不知道),但是,特维斯基的笑话永远都是有意义的,他是用这句话提醒自己,不论什么时候,我们两人手边现有讯息与未知讯息不对称时,他就这样说(我后来也这么做)。
联想机制一个重要的特性是,它只代表被活化的想法,那些无法从记忆中被提取出来的讯息(即使无意识的提取)就等于不存在。系统一善于在把目前活化的想法纳进来,建构最可能的故事情节。这点它做得很好,但是它没有办法提取系统中没有的讯息。
测量系统一是否成功的方法是看它创造出来的情境是否有连贯性,与故事所需数据的数量和数据品质没有关系。当讯息很少时(这现象常发生),系统一会轻率下结论。请思考一下这个说法:「闵迪克会是一个好领袖吗?她很聪明又坚强……」。你的脑海中一定马上出现一个答案,这个答案是肯定的。你根据很少的讯息做了最好的决定,但是你太快做决定了,万一后面两个形容词是「腐败」与「残暴」呢?
请注意你在很快对闵迪克做出是不是好领袖的判断时,你没有问:「在我对这个人的领导能力下结论之前,有什么是我应该知道的?」系统一从第一个形容词出现便开始自己工作了。聪明是好的,聪明又坚强,那是好上加好,系统一毫不费力的就把故事编出来了。假如新的讯息进来(例如闵迪克很贪腐),这个故事就得修改,但是系统一不会等待,也不会出现主观上的不自在,我们的偏见是第一印象就决定了。
寻求合理一致性的系统一加上懒惰的系统二,表示系统二会支持很多系统一的直觉信念,而这信念正是系统一制造出来的印象。当然系统二有能力采取系统化,仔细小心的检验,勾选完决策单子上的每一个检核项目才做决定。想想看,买房子时,你会特意去寻求你没有的资讯,然而,即使是深思熟虑后的决定,系统一也会去影响系统二的决定,系统一的讯息输入是从来没有停止的。
在证据不足的情况下就仓促做决定,对我们了解直觉思考很重要,本书也会一直提到,所以我现在用英文字母简写「WYSIATI」(What You See Is All There Is) 来代表这种情形,意思就是「你所看到的就是全貌」。系统一对造成印象和直觉讯息的质与量完全不敏感。
特维斯基和他在史丹佛大学的两名研究生做了一项跟WYSIATI直接相关的研究。他们请受试者看下面短文:
在9月3日,原告大卫.索顿 (David Thornton) ──四十三岁工会的代表──进入节俭药房第168号店,去做例行的工会访视。在他到达168号店十分钟不到,店长就告诉他,他不能在店内跟工会员工谈话,他可以在员工休息时,去后面的房间谈话。这个要求是写在工会与节俭药房的合约上,但是从来没有被执行过。当索顿先生拒绝时,他被告知他有三种选择:1.服从店长的要求;2.离开这家店;或3.被警察逮捕。此时,索顿先生跟店长说,他以前都可以在店里跟工会员工谈话十分钟,只要他没有干扰到店里做生意,所以他宁可被捕也不愿改变例行访视的行程。店长于是打电话报警,警察以非法侵入的罪名逮捕索顿。在做完笔录并被短暂关入看守所后,索顿的罪名被撤销了,索顿先生反控节俭药房不当逮捕。
除了这份文件是所有受试者都得读的,不同组受试者还会看到两造律师的辩词,当然,工会律师形容逮捕是恐吓威逼的行为,而药局律师则说在店里谈话会妨碍做生意,店长的处置是合理的。有些受试者则像陪审团一样,两造说词都仔细听。律师的说法并没有增加任何新讯息,他们所说的话,从背景故事中都可以得到。
所有受试者都非常了解这个情境,即便只听一面之词的人也很容易想出对方会讲的话。虽然如此,律师单一方面的话仍然对判断造成了很大的影响;此外,只看到一方证据的受试者,比看到两造证据的受试者,对自己的判断更具有信心。这正说明人们依已知讯息建构出合理故事的连贯性,增强了他们的信心。这跟故事的一致性有关,跟完整性无关。的确,你常会发现,知道一点点反而使你容易把你所知道的编成合理的故事。
WYSIATI加速了合理性和一致性的达成,而认知放松使我们倾向于接受这件事是真的。这件事解释了我们可以快速思考的原因,以及我们如何用部分讯息就对复杂的外界建构出合理的故事来。很多时候,我们拼凑出的故事是跟外界很相似,相似到足以支持我们合理的行动。然而,我会用WYSIATI原则来对判断与选择中的各种偏见做出解释,包括这些:
- 太过自信:就如WYSIATI原则所示,无论是证据的数量还是质量,都与主观自信关系不大。每个人对他信念所持的信心大部分来自他们对亲眼所见所编故事的品质,即使他们所见到的非常少也没有关系[2]。我们通常不会考虑到决定这件事的关键证据还没有出现,却以为我们所看的就是全貌,而这是不足以判断的。此外,我们的联结系统倾向于选择一个已被活化的连贯模式,压抑怀疑和不确定性。
- 框架效应:用不同方式呈现相同讯息常会引发不同情绪。例如,「在手术后一个月内的存活率是90%」就比「手术后一个月内的死亡率是10%」更有说服力;同样的,夹三明治的肉,如果写成「90%不含脂肪」就比「含10%脂肪」更具吸引力。这两种呈现方式不同,但讯息的内容是一模一样的,但是人们通常只看一种形式,而且觉得他所看到的就是全貌,不管完整性。
- 忽略基率:记得前面提到温和又整洁的史提夫吗?他常被误认为图书馆员。这人格方面的描述非常鲜明而生动,以致于人们忘记了男性农夫比男性图书馆员多了20倍。这个统计事实在你第一次考虑到这个问题时,几乎一定不会出现在你心中,你觉得你看到的就是全部了,便忽略了基准线的不平等。
说到骤下结论
「她对这个人的经营手段一点都不了解,只是凭着优越的简报得来的月晕效应做判断。」
「在提出任何讨论之前,先各自判断这个问题,以避免互相干扰,我们才能从每个人独立的评估上得到较多资讯。」
「他们根据一个顾问的正向报告就做了这个重大决定。WYSIATI──你所看到的就是全貌,他们没有想到自己掌握的讯息太少了。」
「他们不想知道更多讯息,以免破坏他们原有的故事情节,他们较相信自己所见到的就是事实──WYSIATI。」
08 我们如何做出判断
你可以回答无限的问题,不论问题是别人问你的,或是你问自己的;你可以评估的属性也是没有限制的,你可以计算一页文字中,大写字母的数量;比较你家和对门邻居家的窗户高度;你可以用量表去评估议员的政治前途,这些问题由系统二来解决。系统二能调整注意力,搜寻记忆找出答案。系统二接受问题或者自己提出问题,不论哪一种,都能重导注意力并搜寻记忆以得出答案。系统一的运作则不同,它持续不断地监控大脑内外发生的事情,没有特别的意图,也很少付出努力,只是持续不断地评估情境的各种层面。这些基本的评估在直觉判断上扮演了重要的角色,因为人们常把这些基本的评估拿来取代较困难的问题──这是捷径和偏见的最核心观念。系统一的其他两个特质也支持用一种判断去取代另一种。其中一个特质是跨面向 (dimension) 的价值转换能力,用在回答比较容易的问题上,例如:「假如山姆的身高跟他的智商一样,他有多高?」这时,快速思考的方式便开始运作。系统二会自动回答某个特定问题或是评估某个情境的特定属性,并自动激发其他计算,包括一些基本的评估。
基本评估
演化使系统一不停地对有关生存的问题持续的评估:一切都好吗?是威胁还是机会?一切都正常吗?我该前进还是该逃避?这个问题对身处都市环境的人类可能不及大草原上的羚羊那么急迫,但是我们从演化继承而来的神经机制持续不断地评估危险,这是关不掉的。系统一会不停地评估情况是好是坏,需要马上逃跑还是可以前进。人的好心情和认知放松相等于动物对安全性和熟悉感的评估。
一个基本评估的最好例子,就是一眼就能区分出是敌是友的能力,所有动物都发展出这种特定的能力。我在普林斯顿大学的同事托朵洛夫 (Alex Todorov) 曾经研究过跟陌生人互动的快速判断的生物机制。他发现,我们生来就有这种能力,只要看一眼陌生人的脸,就能决定这个人的两个重要事实:他有多强势(因此他有潜在的威胁性),以及他值不值得信任(他的意图是倾向友好还是敌意)[1]。脸型提供了评估强势与否的线索:方下巴通常是控制欲强的人;脸上的表情(微笑或皱眉)则提供陌生人意图的线索;方下巴和下垂的嘴角通常是找麻烦的象征。光凭脸部来判断当然很不准确:圆下巴绝对不是温和的可靠指标,而微笑也有可能是假笑[2]。不过,即使是不完美的评估能力也还是对生存有利。
在现代社会里,这个古老的机制有了新用途:它会影响人们的投票。托朵洛夫给学生看一个男人的脸,大约只给他们看十分之一秒的时间就闪过去,然后请学生判断这个人友不友善、讨不讨人喜欢,能力如何。结果发现,学生的评估非常一致。托朵洛夫选的脸不是随机取样,他选的是候选人的脸,结果普林斯顿大学的学生认为有能力的人,有70%选上参议员、国会众议员,和州长。这个效果很快地也在芬兰全国性选举、英国的区域代表选举,以及澳洲、德国,和墨西哥的选举上得到证实。令人惊讶的是(至少对我而言),托朵洛夫的研究对这些人能力评估的预测力,竟比民意调查更准确。
托朵洛夫发现,人们总是综合强度和信任感这两个向度来判断一个人的能力。有能力的脸是强壮的下巴加上一点点自信的微笑。没有任何证据显示,可以依这种脸预测这个人在执政上的表现。但是大脑造影的研究显示,人类生物上的倾向会拒绝缺乏这种属性的人。在这个研究里,落选的人在受试者的大脑反应中有较强的负面情绪反应。这是我在下一章中要谈「判断的捷径」(judgment heuristic) 的例子。选民会在脑海中形成某候选人的执政表现未来可能多好的印象,系统二再依据这个简单的评估法做出它的决定。
政治学研究者开始从托朵洛夫原始的实验中,找出哪一种选民最受系统一自动化偏好的影响。结果发现,那些政治资讯不够,但是有看大量电视的选民(如我们预期的),依面孔来判断候选人能力的效应是资讯较多、看较少电视选民的三倍。显然系统一在候选人的判断决定上的影响并非每个人都相同的。我们会在其他例子看到这个别差异。
当然,系统一了解语言,这了解则仰赖平日例行执行的基本评估,因为系统一要不停地了解事件和理解讯息的意义。这个评估包括计算相似性和代表性、因果关系的属性、联结和样本取用的可能性,甚至在没有特别任务时,也在进行评估。一旦需要,评估结果就可以马上拿出来应用。
基本评估的内容很多,但并不是每个可能的属性都需要评估,如图7。
图7
一眼望过去,你会对图的很多特征有印象。你知道左右两堆积木是一样高的,两者的相似性远大于左边的积木与中间的积木,但是你不会马上察觉左边的积木数与中间的积木数是一样多的。为了要确认这些积木的数量是否一样多,你可以数数看,这个工作只有系统二可以做到。
组件与原型
接下来一个例子是:请问图8中各个线条的平均长度是多少?
图8
这个问题很简单,系统一马上可以回答。实验发现,只要几分之一秒就足以让人们相当正确地说出线条的平均长度。此外,判断的正确率不会因受试者认知上的繁忙(例如:正在记忆)而减低。认知系统不一定知道如何描述平均长度是多少公分或多少英吋,但是如果要非常正确地调整另外一条线的长度,使其跟心目中的平均值一样长,系统二不需要形成平均长度的印象,系统一就可以自动毫不费力地完成,就像登录线条的颜色和线条是否平行一样轻松。我们同时可以对众多物品的数量形成立即的印象,假如数量小于4,印象会很准确;超过4的话,就会较粗略。
现在再来看另外一个问题:图8线条全部加起来的总长度是多少?这就是全新的经验了,因为系统一没有任何意见可提供。要回答这个问题只能活化系统二,系统二必须很辛苦地估计平均值,估算或数出有几条线,然后乘以条数。
光看一眼系统一不能计算出全部的长度,对你来说可能一点也不意外:你从来没想过可以这样做,这就是系统一的限制。因为系统一是用原型或一组典型的事件来代表类别,它善于处理平均数问题,但对总和就很不擅长。一个类别的规模和其中包含的案例数量,常常在判断我称之为总和之类的变项 (sum-like variables) 时被忽略掉。
在一个系列的实验中,实验者问受试者:愿意出多少钱买网子覆盖漏油区域,因艾克森石油公司的油轮触礁沉没,原油外泄而淹死很多迁徙的水鸟。三组受试者都看到一张全身羽毛被原油污染而溺死的水鸟照片,受试者依各自意愿拯救鸟的数量分组,分别为2千只、2万只,及20万只水鸟。假如拯救水鸟是一项经济物品,其价值应该像总和的变项:救20万只鸟应该比救2千只鸟花得钱多。但事实上,这三组的平均捐款为2千只鸟80美元,2万只鸟78美元和20万只鸟88美元,鸟的总数居然没有造成捐款金额的差异,这三组受试者都只是对那张受难的鸟在做反应,几乎完全忽略了数量。这种因情绪反应忽略数量概念的案例,在其他实验中也被证实了。
强度的配对
你的幸福感、总统受欢迎的程度、金融骗子的判刑轻重,及政客未来的前途等问题都共有一个重要的共同特质:这些问题都触及强度或数量,我们会用「更」这个字来做比较:更幸福、更受欢迎、更严厉,或更有权力(对政客而言)。例如,对候选人政治前景的形容可以从「她会在初选就被刷掉」到「她有一天会当上美国总统」不等的程度。
在这里,我们遇见系统一的另一项新能力。我们内在的强度量表可以跨越不同向度去做比较,假如犯罪可用颜色表示的话,谋杀的颜色应该是深红,比偷窃的颜色更深;假如犯罪可用音乐来表达的话,大屠杀就应该是很强大的声音,而停车罚单累积未缴就是很微弱的声音。当然,你对处罚的强度也有同样的感觉。在一个古典的实验中,受试者调整声音的大小来表示罪行的严重程度,假如你听到两个声音,一个代表犯罪,一个代表惩罚,当一个声音比另外一个大很多时,你会觉得不公平。
请看下面这个例子,我们在后面还会提到:
茱莉四岁时就能阅读。
现在把茉莉的阅读能力跟下面这个强度量表配对:
某人的身高跟茱莉的早熟程度一样,他有多高?
你会想到180公分吗?显然太少,210公分呢?可能又太多,你在找一个跟四岁就能阅读的儿童同样了不起的高度,虽然应该很了不得,但是没有到非常卓越的程度。如果十五个月大就会阅读,那就非常非常了不起,就像一个身高230公分的人一样。
在你的专业领域中,薪水要多高才能跟茱莉的阅读成就一样?
哪一种犯罪的严重程度可跟茱莉的早熟程度相符?
哪一所长春藤明星学校毕业生的平均成绩跟茱莉的阅读水准一样?
并没有很难回答,不是吗?可以确定的是,跟你同样文化环境中的其他人做出的配对结果会很接近。我们发现,受试者被要求从茱莉学会阅读的年龄去预测她将来的学业总平均时,他们会把一个量表的分数转换到另外一个量表去,选出相对应的学业总平均来。我们也明白,为什么用配对来预测的做法犯了统计上的错误──虽然对系统一来说很自然;但对统计学家以外的大多数人来说,他们的系统二也可以接受这种配对的预测方法。
心智的发散性
系统一随时都在做各种计算,有些计算是例行的评估,是持续不断在进行的。只要你的眼睛一睁开,你的大脑就在计算在你视觉范围内三度空间的任何东西,包括物体的形状、所处空间的位置,及物体的名称。你不需要刻意激发这个评估动作,或持续监控有没有任何事情违反了我们的预期。与这些例行评估相反的是,其他计算只有在需要时才会去运作,你不会持续评估你有多快乐或多富有,即使是政治狂热份子,也不会一直评估总统满意度有多高。这些偶尔的判断是自主性的,只有在你要做时,才会发生。
你也不会自动去数你读的每一个字有多少音节,但是假如你想要,的确可以这样做。然而,很难控制让刻意的计算能够很精确:我们的计算常常比我们需要的多,我把这种过量计算叫做心智的发散性。就像用散弹枪去瞄准某一点是不可能的一样,因为散弹枪的子弹是乱飞的,想要叫系统一不要多做系统二没有吩咐的事,也是一样的困难。我很早以前从书上看到的两个实验正好可以说明这一点。
实验一让受试者听几对字词,如果听到字词有押韵就要尽快按键。这些字的押韵可以有下列两种方式:
Vote-Note
Vote-Goat
因为你看到了这两组字,会觉得很明显都有押韵,但是Vote和Goat的拼法不同。受试者是「听」到字,却受到拼字的影响,听出Goat那组有押韵的速度就慢下来了。虽然研究人员只要他们比较有没有押韵,受试者其实还是比较了字的拼法,与声音无关的讯息妨碍他们迅速做出判断。刻意回答一个问题却引发了另一个问题,这不仅是多余的,也不利主要任务的完成。
在另一个研究中,受试者听一序列的句子,只要句意是正确的就按键,请问对下列句子的正确回应是什么?
有些路是蛇 Some roads are snakes.
有些工作是蛇 Some jobs are snakes.
有些工作像监狱 Some jobs are jails.
这三个句子在文意上都是错的,但你可能觉得第二个句子的错误更明显,受试者在第二句子的反应时间跟另两句比起来有显著性的差异。这差异的原因是第一、第三句在比喻上可能是对的,我们再次看到,刻意去计算会激发另一个计算,而且正确答案在冲突中更明显,但这不相干答案的冲突会干扰系统的表现。在下一章中,我们将看到把心智发散性和强度配对综合起来,就可以解释为什么我们对自己所知甚少的东西会有直觉的判断。
说到判断问题
「评估一个人有没有魅力是一种基本评估,不管你想不想,这种评估都会自动进行,评估的结果也会影响你。」
「大脑中的神经回路会从脸型去评估控制欲。他看起来就像个领导人。」
「如果惩罚不符合犯罪的严重程度,我们会觉得不公平,就像你可以把声音的大小和光线的强弱配对一样。」
「这是心智发散性最清楚的例子,人家只是问他这家公司的财务稳不稳,他却想到该公司某项他很喜爱的产品。」
09 回答一个比较容易的问题
你的心智生活有一个很了不起的地方是,你很少受到回答不出来的挫折。没错,你偶尔会碰到17×24=?这种答案不能马上进入你心中的问题,但是这种让你哑口无言、不能回答的情况很少。在正常的心智情况下,你对几乎所有进入心中的事情都有直觉和意见。你喜欢或不喜欢这个人,远在你跟他们熟悉之前就决定了,你不知道为什么就会信任或不信任这个陌生人,你没有经过分析就觉得这个企业一定会成功。不管你能不能说得出来,你常常对不完全了解的问题有现成的答案,而你依赖的是自己完全不能解释、也不能辩护的证据。
取代问题
我提出一个简单的说法,来解释我们对复杂的事情如何得出直觉的意见。假如对一个很难的问题无法马上找到满意的答案,系统一会找一个容易一点的相关问题来替代困难的,然后回答这个容易一点的问题。我把这种回答另一问题的操作方式叫做「替代」(substitution),并采用下面这些名词:
目标问题是你要去评估和回答的。
捷径的问题是你比较容易回答的。
捷径在技术上的定义是「一个比较简单的程序」,它能帮助两个困难的问题找到合适、但有时是不完美答案的方法。heuristic(捷径)这个字从希腊文eureka(我发现了)而来。
这个替代的想法来自早期我与特维斯基一起工作的时期,后来成为捷径和偏见研究的核心。我们问自己:人们如何在不知道什么叫机率的情况下,去做机率的判断?我们的结论是,人们一定是把复杂的问题简化到自己可以处理的阶段,所以我们就开始研究人们是怎么处理那些不可能的作业。我们的答案是:当人们要去做机率判断时,他们其实是去判断别的东西,但是自以为在判断机率。系统一在面对困难的目标问题时,常常这样做,尤其是当一个相关且较容易的捷径问题的答案马上来到心中的时候。
用一个问题去替代一个问题,是解决困难问题的好策略。波利亚 (George Pólya) 在他的经典著作《怎样解题》(How to Solve It) 说:「假如你不能解决这个困难的问题,一定有个容易的问题是你能解决的,去找到它!」波利亚的捷径法,是需要系统二去完成的策略程序,但是我在这章中所谈到的捷径并不是特意选的:它们是心智发散性的后果,是我们对问题的回应不精确控制的结果。
请看下列表1的目标问题。这些都是困难的问题,在你能够找到合理的答案去回答之前,必须先处理其他困难的议题。什么叫快乐?接下来六个月最可能的政治发展是什么?对其他金融犯罪的标准判刑是多少?这些政治候选人所面对的竞争有多激烈?还有哪一些环境的原因是我们该考虑的?严肃的去处理这些问题是完全不切实际的。但是没有人规定你一定要完美地回答这些问题。但是这些问题有可替代的捷径方式,它有的时候很有效,有的时候却会带出错误的答案来。
目标问题
你愿意捐多少钱去拯救濒临绝种的物种?
这些天来,你的生活有多快乐?
六个月后,总统的满意度有多高?
欺骗老年人的理财顾问应该要怎么惩罚?
参与总统大选初选的这位女性候选人,她的政治前途能走多远?
捷径问题
当我想到快死的海豚时,我的感情有多强烈?
你现在的心情如何?
总统现在的满意度有多高?
当我想到金融骗子时,有多愤怒?
这位女性候选人看起来像是政治赢家吗?
心智的发散性使我们很快能对这些复杂的问题得出立即的答案,且没有对懒惰的系统二增加什么负担。跟左边相对应的每一个右边的题目都能很快得出容易的答案。你对海豚和对骗取老人退休金的恶棍的感觉、你目前的心情、你对候选人政治的能力或目前总统的声望都有现成的答案。这些捷径问题为那些困难的目标问题提供了现成的答案。
但是在这故事中,还是有个不完整的地方:这些答案需要符合原始的问题。例如,我对濒死白海豚的感觉必须用金钱去表达出来,系统一的另一个能力──强度配对,可以用来解决这个问题。感觉和捐钱都是强度的量表,我心中对海豚感觉的强弱可由我捐款的多寡来配对。进入我心中的金额就是配对的数量,同样的强度配对可以应用到所有问题上。例如,候选人的政治能力从可悲的到特别令人印象深刻的;而政治上的成功也可以从很低的「她会在初选中被淘汰」,到很高的「她有一天会成为美国总统」。
心智发散性的自动化历程及强度配对,常为困难问题的替代问题产生一个或多个答案。有的时候,捷径问题的替代答案会得到系统二的支持。当然,系统二有机会可以拒绝这个直觉的回答,或去修正它,把别的讯息综合进去。然而,懒惰的系统二通常遵循着最不费力的路线,连想都不想就支持捷径答案,没有花心思去想这答案合不合适。你不会被目标问题绊倒摔跤,也不必工作得太辛苦,你甚至没有注意到,你根本没有回答你被问的问题。此外,你可能不了解目标问题很难,因为直觉的回答很快就来到你心中了。
3-D的捷径
请看一下图中这三个人,然后回答下面的问题:
图9
右边那个人有比左边那个人大吗?
你心中马上冒出明显的答案:右边的人的确比较大。但是假如你拿把尺去量的话,你会发现,事实上他们是一模一样大。你对他们的印象主要是受到强有力错觉的影响。这个错觉清楚地说明了替代的历程。
这三个人所处的走廊画得看起来有深度,你的知觉系统自动把它解释成三度空间的情景,而不是印在纸面上的二度空间图画。在三度空间的解释中,右边的人比左边的人站得远而且比较大。对大部分的人来说,这三度空间的印象是非常强烈的,只有视觉艺术家和有经验的摄影师才会发展出把这张图看成平面的特殊能力。对我们一般大众而言,替代便产生了:这个强有力的三度空间影像完全控制了二度空间大小的判断,这个错觉来自3-D捷径 (3-D heuristic)。
这里出现的是一个真正的错觉,而不是误解问题。你知道问题是要你比较图画中人的大小,假如我请你估计这些人的大小,我从实验中得知,你会回答几英吋,而不是几英呎。你不会混淆这个问题,但是你会被一个你并没有被问到的问题所影响:「这三个人有多高?」
在这捷径中,最重要的一个步骤是把三度空间替代成二度空间的历程是自动产生的。这张图中有线索告诉你去做三度空间的解释。这些线索跟你手边的作业──判断图中人物的大小──是无关的,所以你应该忽略它们,但是你不行。这个跟捷径联结在一起的偏见,是物体看起来比较远的比较大,这个判断是基于替代,所以不可避免地会朝预期的方向偏误。在这个例子中,它深深发生在我们的知觉系统中,你根本没有办法抵抗它。
快乐心情的捷径
有一个对德国学生的调查,是替代最好的例子。这些年轻受试者需要回答下面两个问题:
这几天你有多快乐?
你上个月约会了几次?
实验者想知道这两个问题之间的相关性,约会很多的学生会不会比约会少的快乐?很令人惊讶的是:不会。这两个问题的相关是零。显然约会不是学生在评估他们是否快乐时,第一个进入心中的答案。另一组学生也是同样看这两个问题,但是次序不一样。
你上个月约会了几次?
这几天你有多快乐?
结果这次的相关完全不同。在这个顺序中,约会次数跟快乐有相关,这是怎么一回事?
这个解释很简单,它是替代最好的例子之一。约会显然不是学生生活的中心(在第一个调查中,快乐和约会是没有相关的),但是当学生想到他们的浪漫生活时,就产生了情绪反应。有很多约会的学生被提醒了生活中的快乐层面,而那些没有约会的人则被提醒了寂寞和被拒绝。这个因约会而被提醒的情绪还停留在受试者心中时,下一个有关快乐的问题就出现了,所以相关也就跟着出现。
这个相关的心理学跟图9大小错觉的心理学是完全可以类比的。「这几天有多快乐」不是一个很自然或很容易回答的问题。好的答案需要时间去思考。然而,那些刚刚被问到约会次数的学生并不需要花时间去思考,因为他们心中已经有一个答案是跟这个问题相关的;他们的爱情生活有多快乐?他们把这个问题用刚刚被问过的问题去替代,然后马上讲出答案。
我们可以像刚刚在第一章中提到的错觉一样,再问:这些学生是否混淆了问题?他们真的认为这两个问题──一个是他们被问到的目标问题,另一个是他们回答的替代问题──是相同的问题吗?当然不是,学生绝对不会分不清楚罗曼蒂克的生活和日常生活。假如你问他们这两个概念,他们会告诉你,是不一样的。但是他们被问的不是这两个概念有什么不同,而是他们有多快乐,系统一已经有现成的答案了。
约会的问题并不独特,学生在被问到与父母的关系或是他们的经济情况后,马上再问他是否快乐时,同样的相关形态也会出现。在这两个情况下,任何会显著改变一个人心情的问题,都会产生同样的效应。这就是前述的WYSIATI,当人们在评估快乐程度时,目前的心情状态会放得非常大。
情意的捷径
情绪的影响非常大,心理学家史洛维克 (Paul Slovic) 提出了
「情意捷径」这个名词,认为人们让自己的好恶决定他们的世界观。像政党偏好会决定你要不要相信某个政客讲的话;假如你喜欢目前的健保政策,你会相信现行政策的好处很大,花费比另一方案少;假如你对其他国家的政治态度属鹰派的,你可能会认为那些国家都很弱小,你的国家可以强势地逼迫他们屈服;假如你是鸽派,你可能认为那些国家很强悍,不容易说服。你对这种事的情绪态度就像对辐照食物、红肉、核能、刺青,或摩托车,会驱使你认为他们是有利还是有害的。假如你不喜欢上面任何一样东西,你可能会认为危险性很高,收益性可以被忽略。
这个结论并不是说你的心智是完全关闭的,你完全不理会讯息和理性的推理,便形成意见。在你了解你不喜欢的活动的风险性比想像中小时,你的想法,甚至情绪态度会改变(至少一点点),同时,关于风险性较低的讯息也会改变你对效益的看法(会变得更好),即使你所接受到的讯息中完全没有提到效益。
我们在这里看到系统二另一个新的人格。直到现在,我所描述的都是默默顺从的监控者,它给了系统一很多空间;同时也描述系统二主动搜寻记忆、做复杂的计算、做计划、做选择的功能。在球棒与球的问题和其他两个系统互动的例子中,系统二都是最后的决策者,它有能力抵抗系统一的建议,把事情放慢,提供逻辑分析。自我批评是系统二的功能之一。然而,在态度方面,系统二更像是系统一的支持者,而不是批评者或执行者。它通常在跟现行信念符合的讯息中搜寻,而不是真的刻意去审视这些讯息。主动寻求一致性的系统一,对不苛求的系统二提出了解决方案。
说到替代和捷径
「还记得我们要解决的问题吗?还是,我们已经把它和容易的问题替换过来了?」
「我们面对的问题是,这个候选人是否会赢?而我们却回答,她是否在记者会上表现得好。请不要替代。」
「他喜欢这个专案,所以他认为代价很低、收益很高。这是情意捷径的一个很好的例子。」
「我们用去年的表现来做捷径,预测这个公司几年以后的价值。这个捷径够好吗?我们需要其他资讯吗?」
下表是系统一的特质和活动。每一个主动句替代一个比较正确、但较难懂的话。我希望这个人格特质的清单能帮助你发展出对虚拟的系统一人格的直觉。就像其他你知道的特质,你对系统一在不同情境下会做些什么有预感,而你这些预感大部分是正确的。
系统一的人格特质
- 产生印象、感觉、倾向。当系统二支持时,这些就变成信念、态度和意图。
- 自动化、迅速地运作,花很少力气或几乎都不花任何力气,没有自主的控制。
- 当某一个特定型态被侦察或搜寻到时,可以依系统二的命令去驱动注意力。
- 在经过训练后,可以执行有技巧的反应以及产生有技巧的直觉。
- 在联结记忆中对活化出来的想法创造出合理、有一致性的型态。
- 把真相的错觉、愉快的感觉、降低的警戒心联结到认知放松上。
- 区分出惊讶和正常。
- 推断并臆测出原因和意图。
- 忽略模棱两可的不确定性和压抑怀疑。
- 偏向相信和肯定。
- 夸大情绪的一致性(月晕效应)。
- 聚焦在现存的证据上,忽略不在眼前的证据 (WYSIATI)。
- 做一些有限的基本评估。
- 用常模和原型来代表基本评估,但没有综合能力。
- 跨量表的强度配对(如把体型大小和声音大小配对)。做比所需更多的计算(心智发散性)。
- 有时用容易的问题去替代困难的问题(捷径)。
- 对改变比状态更敏感(展望理论 prospect theory)*。
- 过度看重低的机率*。
- 对量(心理物理学)的敏感度愈来愈小*。
- 喜赚厌赔(损失规避)*。
- 把问题规范得很窄,把它跟别的问题区隔出来*。
*第四部分会详细介绍这些特质。
第二部 捷径与偏见
10 小数原则
一项针对美国3141个郡所做的肾脏癌研究,显现出一个很令人惊异的型态。肾脏癌发生率最低的郡多半是在乡下、人口稀少、传统上属于共和党的州,分布在中西部、南部和西部。你会怎么评断这个分布型态?
在过去的几秒间,你的心智非常活跃,主要是因为系统二在工作。你特意去搜寻记忆要来形成假设。这是要花力气的,你的瞳孔放大,心跳加快。但是系统一也没闲着,因为系统二的运作要靠从联结记忆中提取出来的事实和建议。你可能会反驳共和党政客提供肾脏癌防治方法这个念头。最后你很可能聚焦到人口稀少的乡村、肾脏癌也很少会发生的这个事实上。聪明的统计学家魏纳 (Howard Wainer) 和翟威林 (Harri's Zwerling)(我就是从他们那取得这个例子的)解释道:「我们很容易去推论罹癌率低是因为乡下空气干净、没有污染、水源清洁,加上食物新鲜、没有添加物。」这听起来非常有道理。
现在来看一下肾脏癌发生率最高的郡,这些郡大部分是在乡下、人口稀少、传统上属于共和党的州,分布在中西部、南部和西部[1]。魏纳和翟威林半开玩笑地说:「我们很容易去推论高罹癌率可能跟乡村贫穷的生活型态有关──没有好的医院、高脂肪食物,太多的酒精、香烟。」这里不太对了。乡村的生活型态不可能既能解释低肾脏癌发生率,又能解释高肾脏癌发生率。
主要的问题不是那个郡是乡下、还是共和党,而是乡村人口稀少,这里最大的教训不是流行病学,而是心智和统计之间的复杂关系。系统一已经非常适应一种思考形式──自动、不花力气地找出事件之间的因果关系,有时甚至是假关系。当你被告知高癌症郡时,你立刻假设这些郡跟别的郡不同,这些差异一定有因果关系。然而我们面对统计的事实时,系统一就一筹莫展了。统计事实会改变后果的机率,但是不会使它发生。
一个随机的事件,并没有解释的能力,这是随机的定义,但是搜集很多随机的事件,的确会出现一个相当固定的行为型态。你可以想像,一个罐子中装了很多弹珠,一半是红的,一半是白的,然后想像一个非常有耐心的人(或是机器人),蒙着眼睛,每次从罐中抓4个弹珠出来,登记有多少颗是红的,然后放回罐子,再从罐中抓4个。如此重复做N次,如果你把结果综合起来看,你会看到2红2白比4红或4白多6倍。这个关系就是数字的事实。你可以非常有信心地预测这个结果,就像你会非常有信心地预测用锤子敲鸡蛋的结果一样。你不能预测蛋壳会怎么破,但是你可以确定这颗蛋一定会破。这里有一个差别:你可以感受到用槌子敲鸡蛋的因果关系,这在从罐子中取样本做研究时是没有的。
一项相关的统计事实跟前面这个癌症例子有关。两个非常有耐心的人轮流从罐子中取弹珠,杰克每次取4颗弹珠,吉儿每次取7颗,每次都登记他们拿到全白或全红的次数。假如他们重复这个动作够久的话,杰克会比吉儿观察到更多的这种极端成果,大约多到8倍(预期的百分比是12.5%和1.56%)。这与槌子或因果关系无关,只有数学的事实:每次拿4颗会比每次拿7颗,会出现更多的极端结果(全白或全红)。
现在把全美国的人口想成罐中的弹珠,有些弹珠上面写着KC(肾脏癌),每次轮流在这些郡中取样本。乡下的样本比其他样本小,就像杰克和吉儿的实验一样,极端的结果(非常高或非常低的罹癌率)容易出现在人口少的郡,这就是唯一的原因。
我们从寻找原因的任务开始:肾脏癌发生率在全国各州的差异性很大,而且这差异是系统化的。从统计角度来解释:极端的结果(高和低的癌症率)本来就比较可能在小样本中出现。这个解释与因果关系无关,人口少的郡既没有引起、也没有防止癌症,它只是让癌症率这个数字与人口稠密的郡相比,变得比较高(或比较低)。真相是没有什么可解释的。人口少的郡癌症率并没有更高或更低,它只是在某一年看起来是这样,因为取样的关系。假如我们在下一年重复这个取样的话,可能会观察到和小样本群同样的极端型态,但是去年高的郡,今年就不一定高了。假如是这样的话,人口稠密与人口稀少的郡就不是真正的事实,而是科学家所谓的「假象」(artifact)──因研究方法而产生的现象──在这里是指因样本大小所产生的差异。
上面这个故事可能令你很惊讶,但是它并不令人意外,你很早就知道大样本比小样本值得相信,即使不懂统计的人也听过「大数原则」(law of large numbers)。但是「知道」并不像「对错」问题,你会发现下面几句话可以应用到你身上:
- 在你读流行病学故事时,并没有立刻想到「人口稀少」这个特质与研究有关系。
- 你对取4个样本和7个样本所得到的差异多少感到惊讶。
- 即使现在,你必须要花些力气才能看懂下面两句话是讲完全相同的两件事:
-
- 大样本比小样本精确。
- 小样本比大样本容易得出极端的结果。
第一句话一看就晓得是真话,但是一直要到第二句话变成你的直觉,你才会真正了解第一句话。
结论就是,是的,你真的知道大样本的结果比较精确,但是你可能现在才了解你并没有很清楚。你不是唯一会这样的人,特维斯基与我合作的第一个实验就显示,即使是很严谨的科学家也会有很差的直觉,而且不清楚样本效应。
小数原则
我跟特维斯基在1970年代初期的合作,是在探讨「没有统计训练的人却有好的统计直觉」。他告诉我和我的学生,密西根大学的研究者对直觉的统计很乐观。我对那句话感受很强烈,因为最近刚刚发现自己不是很好的直觉统计学家,而我不认为自己比别人差。
身为研究型心理学家,取样的变异性 (sampling variation) 并没什么特别,只是个讨厌又很花钱和精神的障碍物,它把每一个研究专案变成赌博。假设你想证明,六岁女孩的词汇量比同年龄男孩多的假设。这个假设在母群中是成立的,一般女孩的词汇量的确比男孩多。然而,男孩和女孩的差异性很大,运气好的话,你会选到差异不明显的样本,甚至男孩的分数比女孩高的样本。假如你是研究者,这个结果对你来说,代价就高昂了。因为你耗费了时间和精神,却无法确认假设是否符合事实为真。唯一可以减少这个危险的方法是用很大的样本群,那些用很少样本的研究者等于是把自己交到取样运气 (sampling luck) 的手中。
任何样本大小的错误风险,可以用一个很简单的方式来预估。不过,传统上,心理学家不用计算来决定样本大小。他们用判断力,而这是会出错的。在我跟特维斯基辩论之前,我读了一篇专讲研究者犯的错的论文(他们到现在仍然在犯),这位作者指出,一般来说,心理学家选的样本小到有50%的机会不能成立他们的假设[2],如果推翻了虚无假设,那么对立假设 (alternative hypothesis) 就成立。没有任何一个心智健全的研究者会接受这样的机率。比较可能的解释是,心理学家关于样本大小的决定,反映出他们对取样变异数有普遍性的直觉迷思。
这篇论文让我很震惊,因为它解释了我自己在研究时所碰到的问题。像大部分的心理学家一样,我习惯性地选了太小的样本群,常常得到无法解释的资料,现在我知道为什么了:这些奇怪的资料其实是研究方法上的假象。会犯这种错误特别令我发窘,因为我教统计,知道如何去计算样本大小来减低达不到可接受度的风险。但是我从来没有用计算的方式去决定样本大小。像我的同事一样,在计划实验上,我相信传统,也相信自己的直觉。
我从来没有真正思考这个问题。当特维斯基来到我的书报讨论课时,我已经知道我的直觉是有缺陷的,在这一门书报讨论课中,我们很快都同意密西根实验者的乐观是错的。
特维斯基和我于是设计实验,想要了解我是唯一的傻瓜,还是众多傻瓜中的一个。我们找数学专家来做实验,看他们会不会也犯类似的错误。我们发展出一个描述真实研究情境的问卷,包括一再成功的一些实验,我们请研究者选择样本的大小,评估他们选定样本大小的失败率,并对假想的研究生提供忠告,教他们如何计划实验。特维斯基在数学心理学年会时搜集了一群专家的反应,包括两位统计学教科书的作者。结果很清楚:我不是唯一的傻瓜,我犯的每一个错误,数学专家们都犯了。这表示即使是专家,都没有对样本大小给予足够的注意力。
特维斯基把我们共同写的论文命名为〈对小数原则的信任〉(Belief in the Law of Small Numbers)。我们开玩笑地解释:「随机取样的直觉显然对小数原则很满意。这显示,大数原则也可应用到小数原则。」我们同时也强烈建议研究者,要适度怀疑自己的统计直觉,尽可能用计算来取代印象。
对自信的偏见压过怀疑
在针对300名老人的电话调查中,有60%支持总统。
假如你要为上面这句话做总结,你会怎么说?几乎可以确定的是,你会说「老人支持总统」。这些字的确表达了上面那句话的意义,但是它简化了调查的细节──用电话采访,样本群是300人,这背景知识没有吸引什么人的注意。你的结论即使在样本群不同的情况下,也是一样。当然,一个无稽的数字会引起你的注意(在全国6名或600万名老人中的电话访问调查显示……)。除非你是专业人士,不然你对样本群150人和样本3千人不会有不同的反应,这就是「人们对样本大小没有足够的敏感度」要表达的意思。
这个电话调查的讯息包含了两种讯息:这个故事及故事的来源。当然你会聚焦在故事上而不会注意结果的可信赖度。当信赖度很低时,这个故事就没有人相信。假如别人告诉你「某政治狂热团体做了一个有偏见、有问题的调查,来显示老人支持总统……。」你当然会拒绝这项调查的发现,它就不会变成你信念的一部分。你反而会把它拿来当做政治谎言的新例子,你可以选择不相信这种一看就晓得是假的例子,但是你有足够的信心区辨「我在《纽约时报》上看到……」和「我在茶水间听到……」的差别吗?你的系统一可以区分出相信的程度吗?WYSIATI的原则认为:不可以。
如我前面所说,系统一不擅长怀疑,它会压抑不确定性,而且会自动去建构故事,使一切看起来合理,除非这个讯息被立刻否定,否则它会认为讯息是真的,进而激发联结扩散。系统二可以怀疑,因为它可以同时维持两个不相容的可能性,然而,维持怀疑比维持肯定辛苦得多。小数原则就是系统一偏好肯定,不喜欢怀疑的例子,我们在下面的章节中还会一再看到这种偏见。
我们强烈的相信小样本就代表了大母体,这偏见也是大故事中的一部分:我们倾向夸大所见事物的一致性和合理性。在月晕效应中,可以看到研究者夸大的信心,我们常以为了解对方,其实对他们一无所知;系统一跑在事实的前面,去建构一个丰富的影像,而它所根据的证据实在少得可怜。如果我们相信小数原则,快速下结论就会运作起来。通常,它会建构出一个非常合理的真实,让你相信。
原因和机率
联结的机制寻找原因。我们在统计规则上的难处,就是因为统计的取向 (approach) 不同。统计不去看手边的事件怎么了,而是去看可能会怎样。没有什么特定的东西使事件变成现在的模样,一切只是机率问题。
对因果想法的偏好,把我们带到严重的错误中,使我们在评估真正的随机事件的随机性上犯了错。例如,在同一家医院出生的六名宝宝,性别是男是女显然是随机的,这是独立事件,前面几小时出生的男女数量,跟后面几小时出生的男女数量没有任何关系,甲家生男并不会影响乙家生女,这叫独立事件。现在请想一下,下面这个序列的可能性:
男男男女女女
女女女女女女
男女男男女男
这些顺序是否有同样的发生机率?直觉的反应是「当然没有」。这个反应是错的。因为这些事件是独立的,而且生男和生女的机率(几乎)一样,所以任何一种六个宝宝的性别序列发生机率都是一样,即使你现在已经知道这个结果是真的,它还是跟你的直觉预期不符,因为只有第三个序列看起来是随机的。如我们所预期的,受试者认为「男女男男女男」被判断比另两个更符合随机。我们是型态的寻找者,合理世界的信仰者,在这世界中,规则(如连生六个女孩的序列)不只是随机出现,而是像机械的因果关系或是某人的意图。我们并不期待随机的历程会有规则出现,当我们侦察到随机序列像是有规则在后面操作时,会马上拒绝这个历程真的是随机。随机历程制造出许多人们认为一点都不是随机的序列。你可以看到,假设因果关系有演化上的好处,这是从我们祖先身上继承来的普遍性警觉,我们会自动搜寻环境中的任何改变。狮子随时可能出现在大草原,但是假如狮群出现的频率好像有增加,哪怕这增加是随机历程的随机结果,你最好还是注意一下,为了安全起见,先做个万全的准备。
我们对随机的误解相当常见,有时会产生严重的后果。在特维斯基跟我的论文中,我们引用统计学家富勒 (William Feller) 对人们多么容易凭空看到某个型态的说法。二次世界大战时,伦敦遭到猛烈轰炸,人们认为这轰炸不是随机的,因为被炸到的地方从地图上看来很可疑,有人认为没被炸到的地方是因为有德国间谍住在那里。一项严谨的统计分析显示,被炸的地方完全是随机丢弹的结果,但是它引起的印象却是不随机,富勒说,「对没有经过训练的眼睛来说,随机看起来是有规则可循或是聚集的。」
我很快就有机会应用我从富勒处学来的东西。1973年爆发的赎罪日战争[3] (Yom Kippur)。我劝以色列空军的高级军官不要浪费时间做调查,因为空战一开始对以色列很不利,大家没有想到埃及地对空的飞弹表现这么好,以色列损失惨重,而且受创的地方看起来不像随机分布的结果。我被告知,同一基地的两个飞行大队,一队失去了四架飞机,另一大队一架都没有损失,所以以色列成立了调查小组来研究那一队有什么地方做不好。其实没有任何理由相信哪一个大队表现得比另一个好,两队的运作也没有任何差异。当然,飞行员的生活有很多随机上的不同,包括在两个任务期间他们回家的频率,以及出任务时,任务报告的方式等。我的忠告是,司令需要接受这不同的结果是来自机率,也就是运气。他应该要停止面谈飞行员,我告诉他,运气是最可能的答案。他如果随便寻找不显著的原因,不但徒劳无功,还会伤害到已经受创的士气,使队员觉得死去的队友似乎犯了什么错。
多年以后,特维斯基和他的学生吉尔维胥 (Tom Gilovich)、瓦隆 (Robert Vallone),针对篮球场上随机迷思所做的研究引起了一阵骚动。教练、球迷和球员都相信上场者偶尔会出现手气正旺 (hot hand)、投球必中的时候。于是这个推论几乎理所当然:球员连投中三、四次时,你无法不形成因果关系的判断,这个球员手气正「旺」,他现在得分率会高,有投必中,而且两边的球员都有这种想法──队友会想办法把球传给他,让他上篮得分,敌队则会派出双倍人力去防守他。但是分析出几千次这种情况后发现,根本没有「手气旺」这回事,不管是投篮或罚球都没有。当然,有的球员比别的球员准确一些,但是投中或没有投中的序列是完全符合机率的。所谓「手气旺」完全存在于人的眼中,人们太容易看到因果关系,这是一个影响深远的认知错觉。
大众的反应,也是这研究的一部分。这个惊人的结论上了报纸,一般人的反应是不相信。波士顿塞尔提克队著名的教练奥尔巴哈 (Red Auerbach) 听到吉尔维胥的研究时的反应是:「这家伙是谁?他做了研究?我才不理呢!」人们在随机中看到规律型态的倾向,真是无法抗拒,绝对比这家伙做的研究更令人印象深刻。
规律的错觉对我们生活的影响很大,绝对不只在篮球场上而已。你要多少年都得到好的投资报酬,才承认你的投资顾问其实是不错的?要多少次合并成功,董事会成员才会相信执行长是相当能干的?对这些问题的简单回答是,假如你相信直觉,你会误把随机事件判断为系统化的结果,我们拒绝相信我们所见到的规律性是随机的结果[4]。
我在本章一开头用美国癌症的例子来说明,这个例子原本是写给统计老师看的,我是在前面提过的魏纳和翟威林两位统计学家所写的有趣报告中看到这个例子。他们这篇论文是聚焦在一笔17亿美元的大投资案上:这是由比尔盖兹基金会 (Gates Foundation) 赞助,用以打造一个成功的教育环境。许多研究者都在寻找成功教育的秘密,他们找出最成功的学校,希望发现这些学校与众不同之处。这个研究的一个结论是,一般来说,大多数成功的名校都是小学校,在调查了宾州1662个学校之后,前50名学校中,有6所是小型学校。这使得盖兹基金会投入大量资金去创立小型学校,甚至把大校分割成几个小校,至少有六个基金会跟进,如安能堡基金会 (Annenberg Foundation)、皮优慈善信托基金会 (Pew Charitable Trust),连美国教育部都成立了小型学习社区专案 (Smaller Learning Communities Program)。
你可能觉得上面的做法很正确。我们很容易建构一个因果故事,来解释小校如何能提供比较好的教育并教出高成就的学生:因为小校能给学生较多注意和鼓励。很不幸的是,因果分析的结果是它们一点意义也没有,因为这个事实是错的。假如问向比尔盖兹基金会报告的统计学家:最糟学校的特性是什么?他就会发现,坏学校比好学校的规模还要小。真相是,小学校不是比一般学校更好,只是变异性更大。魏纳和翟威林说,如果真有区别的话,大学校其实有比较好的成绩,尤其在各种课程的选择上,大学校的成绩更高[5]。
多亏了最近认知心理学的进步,我们现在才清楚,当年特维斯基和我只了解了一部分:小数原则是心智运作两大故事中的一部分。
- 对小样本夸大的信心只是一般错觉的例子之一。我们对讯息内容的注意力,大过讯息的可信赖度,这个结果使我们将世界变得比数据能证明的,更简单、更具一致性。「快速下结论」在我们想像的世界中,比在真实世界中安全。
- 统计产生许多观察起来具因果关系的解释,但是它其实没有解释力。这个世界的许多事实是来自机率,包括取样的意外在内。对机率事件提出因果的解释一定是错的。
说到小数原则
「是的,本制片公司自从新执行长上任后,已推出三部成功的电影,但是现在就说他的好手气会持续下去,恐怕还太早。」
「我不愿相信新任的业务员是个天才,我要先去问一下统计学家,请他估算一下他的成功是来自机率的可能性有多少。」
「这个观察的样本太小了,以致不能得出任何推论,我们不要被小数原则给骗了。」
「我想先对实验的结果保密,直到有足够大的样本,不然我们会面对太早下结论的压力。」
11 锚点
特维斯基和我曾经做过一个幸运大轮盘 (wheel of fortune) 的实验,这个轮盘上面标示0到100的数字,但是我们的设计是轮盘数字不管怎么转,都只会停留在10和65这两个数字上。我们再请奥瑞冈大学的学生来做这个实验。特维斯基和我其中一人会站在一组学生前面,转动幸运大轮盘,请他们写下轮盘停住时的数字,当然不是10就是65,然后问他们两个问题:
在联合国中,非洲会员国的数量比刚刚写下来的数字大,还是小?
你认为联合国中,非洲国家会员国的比率是多少?请尽力猜猜看。
这个大轮盘不可能带给你什么有用的讯息,照理说,受试者应该忽略它才对。但是他们没有。看到10的人,平均估计值为25%,看到65的人,平均估计值为45%。
我们所研究的现象,在生活中其实非常普遍,也非常重要,因此你应该知道它的名字叫做「锚点效应」(anchoring effect)。当人们考虑一个未知数量之前,会用某种特定价值,来做估算的比较。估算值会跟你心中考虑的那个价值很相近,这是实验心理学中,最可靠、最强大的结果,就像锚一样稳定而可靠。假如你问「甘地死时是不是已经114岁了?」会得到比问「甘地死时是否35岁」来得高很多的估算值。假如你在考虑要花多少钱买一间房子,你会被开价所影响,开价高的房子看起来比较有价值。假如开价很高,即使你已决心要抵抗这个数字的影响,你还是会受到开价的影响。在估算的问题上,人家问你的任何数字都会影响你的决定,这就是锚点效应。
我们并不是第一个观察到锚点效应的人,但是我们的实验是第一个展现它的荒谬的:人们的判断会被一个怎么看都没有讯息价值的数字所影响。你怎么想都想不出理由,为何幸运大轮盘对联合国有多少非洲会员国有影响。特维斯基跟我把这篇文章发表在《科学》期刊上,这是我们在《科学》期刊上发表过的文章中最著名的一篇。
但是这里有一个问题:特维斯基跟我并没有完全同意心理学的锚点效应。他支持一个解释,我则喜欢另一个。我们没有找到可以解决这个分歧的方法。终于在几十年以后,透过很多研究者的努力解决了这个问题。现在我很清楚,特维斯基和我都是对的,有两个不同的机制制造出锚点效应──每个系统对应一个机制。在系统二的运作上,锚点的形式发生在判断的特意调整过程上。在系统一促发效应上的自动历程也有锚点效应。
锚点和调整
特维斯基喜欢把「调整-锚点」捷径的想法,当作估算不确定值的策略:从一个锚点数字开始,去评估它是太高还是太低,慢慢调整你的估算值,在心智上慢慢移动你的锚,这个调整通常不成熟,未达到最后目的就提早结束了。因为人们在不确定是否该再往前走时,会停顿下来。在我们的看法出现分歧后几十年,也就是特维斯基过世好几年,两名心理学家各自独立的研究提出这个历程的确实证据。这两个人都曾与特维斯基密切合作过,萨佛 (Eldar Shafir) 和吉尔维胥跟他们的学生──特维斯基聪明的孙子们,一起做出来了。
要验证这点,请拿一张纸画一条2½吋长的线条,从底往上画,请不要用尺。现在,拿另外一张纸从上缘往下画,在距离底端2½吋处停住。请比较这两条线,你会发现第一次由底往上画的2½吋比较短(比第二张纸上线条所留下的2½吋空白要短)。原因是,你并不知道2½吋的线条长什么样,这里存在不确定性。当你从页底往上画时,你在不到2½吋处就停下来,但是当你从页头往下画时,你在到达2½吋之前就会停住了。列波 (Robyn LeBoeuf) 和萨佛找到日常生活中这种机制的许多例子。调整不足解释了为什么你下高速公路进入市区后,会开得比较快,尤其当你一边跟别人说话时;调整不足也是青少年和父母之间关系紧张的原因,青少年喜欢在房间里把音乐开得很大声,列波和萨佛注意到「即使孩子好意把很大声的音量调小一点,以达到父母亲对『合理的音量』的要求,但是孩子的锚点高,所以虽然音量调低了,对父母来说仍嫌高,使孩子的好意未被看到」。开车的人和孩子两人都特意向下调整,但是两人的调整程度都不够。
现在请看下面这些问题:
乔治.华盛顿什么时候当选总统?
在圣母峰的顶上,水的沸点温度是多少?
当你看到这两个问题时,第一个进入你心中的是锚点数字,你知道这是错的,也知道答案的方向。乔治.华盛顿在1776年以后成为美国总统,你也知道圣母峰的水沸腾温度低于摄氏100度。你必须要调整方向离开这个锚点数字。就像线条的问题一样,当你不确定该不该往前走时,你会停下来,待在不确定区域的边缘。
艾卜利 (Nick Epley) 和吉尔维胥证实了「调整」是为了离开锚点所做的特意行为:假如受试者被要求在听到锚点时摇头,就好像他们不接受的模样,那么他们会把分数移得离锚点远一些;而听到锚点时点头的人,则会移得近些。艾卜利和吉尔维胥确认了「调整」是要花力气的行为。当心智资源用光时,人们会停留在离锚点比较近的地方,因为他们的记忆塞满了数字,或是有一点醉了,当系统二很弱或很懒时,「调整」就变强了。
所以,我们现在知道特维斯基是对的,至少在系统二去调整某个特定方向,以离开锚点的一些例子中是如此。
锚点是一个促发效应
特维斯基跟我在辩论时,我承认调整有时会发生,但是我对此觉得不自在。调整是个有意识的特意行为,但是在大多数对锚点效应的实验中,缺乏主观的经验,请看下面两个问题:
甘地死亡时,比144岁大还是小?
甘地去世时几岁?
你会把你的估计从144岁往下调整吗?可能不会,但是这个高得不合理的数字(没有人活那么久)仍然影响了你的估计。我感觉到,锚点仅仅是一个「建议」。这是当有人让我们看到、听到或感觉到某个东西时,我们所用的字。例如:「你现在觉得左腿有一点麻吗?」这句话总会使一些人回报说他们的左腿的确有一点怪怪的。
特维斯基比我保守,他不相信暗示或感觉 (hunch),他正确地指出「建议」(suggestion) 并不能使我们了解锚点效应,因为我们不知如何去解释「建议」。我必须承认他是对的,但是我不同意调整不足是产生锚点效应的唯一原因。我们做了很多实验想去了解锚点,但是都没有成功,最后就放弃了。
这个打败我们的谜团现在解开了,因为「建议」这个观念已经不再晦涩不明:建议是个促发效应,它选择性地找出相容的证据。你没有一秒钟会相信甘地活到144岁,但是你的联结机制一定会对一个很老的人产生印象。系统一理解句子的方式,就是尽量相信它是真的,而选择活化相容的思想产生了一串系统性偏误,这使得我们轻信或倾向于坚信我们所相信的东西。我们现在明白,为什么特维斯基和我没有看出其实有两种锚点效应?我们所需的研究方法和理论基础在我们研究当时尚未出现,它们是到后来才被发展出来的:系统一尽力建构一个将锚点数字当作真实数字的世界。我在本书第一部描述了这个联结连贯性和合理性。
德国心理学家马斯魏勒 (Thomas Mussweiler) 和史崔克 (Fritz Strack) 提出了最令人信服的证据,展示出联结连贯性在锚点中扮演的角色。他们在一个实验中,提出锚点问题:「德国的年平均温度是高于还是低于摄氏20度(华氏68度)?」或是「德国的年平均温度是高于还是低于摄氏5度(华氏40度)?」
然后他们给所有受试者看一些字,请他们指认。结果发现,摄氏20度使受试者更易辨识跟夏天有关的字(如太阳、海滩),而摄氏5度则促发了跟冬天相关的字(如,下霜和滑雪)。对相容的记忆的选择性活化,解释了锚点的作用:高或低的数字活化了记忆中不同组的想法和念头。因为选出来的样本有偏见,所以估计一年的平均温度就有偏见。在另外一个实验中,他们要求受试者估计德国车的平均价格。高锚会选择性地促发高级车品牌(如宾士、奥迪);而低锚则会促发大众普遍使用的车款(如福斯)。我们在前面看到,任何促发都会激发跟它相容的讯息,建议和锚点都可以用系统一的自动化运作来解释。虽然我当时并不知道如何证明它,我的感觉后来证实是对的,锚点和建议之间是有关系的。
锚点指数
许多心理学的现象可以用实验的方法展现出来,但是很少可以真正测量到。锚点效应是一个例外。锚点可以被测量,而且效果很大。有人曾问去旧金山探索馆[1] (Exploratorium) 参观的人两个问题:
美国最高的红杉 (redwood) 是高于或低于1200英呎呢?
你猜测最高的红杉的高度是多少?
在这实验中,高锚是1200英呎,另一组受试者看到的则是180英呎(低锚),两者相差了1020英呎。
如我们所预期的,这两组产生了差异颇大的平均估计值:844英呎和282英呎,差了562英呎。锚点指数是两者差异的比例562/1020=55%。这个锚点的测量对盲从锚点数字的人来说是100%,对能够忽略锚点数字的人来说是0。而55%是典型的锚点指数,在很多其他的实验中,都得到相似的数字。
锚点效应不仅是实验室的好奇心,它在真实世界中,影响力一样强大。许多年前有个实验,实验者请房屋仲介者评估一栋在市场上待售的房子价值多少。他们参观了房子,打听了行情,也看到了售价。有一半的房仲看到的价钱远高于屋主的开价,另一半的房仲看到的价钱则远低于屋主的开价,每一个仲介都写下他对这栋房子的估价,以及他愿意卖的最低价钱(假如房子是他的)。然后实验者问房屋仲介者,影响他们判断的因素是什么。很惊讶的是,屋主的开价并没有被列在单子上,仲介者很骄傲自己能忽略这个因素,他们很坚持屋主的开价并没有任何影响力。但是他们错了:这个锚点效用是41%。的确,这些房屋仲介专家跟没有房地产经验的商学院学生一样受到锚点效应的影响,这些没有实务经验的学生的锚点效应是48%。这两组受试者唯一的差别是,学生承认他们受到锚点的影响,而专业人士则否认锚点的影响。
强有力的锚点作用在人们做金钱有关的决定时,最易展现出来。例如,当人们决定要捐献多少钱时。我们告诉探索馆实验的受试者,油轮造成了环境污染,问他们愿意捐多少钱来救助这些在太平洋岸受污油伤害的五万只海鸟;「从清除岸边小范围的漏油污染,进而找到防止漏油污染的方法,到要求油轮船主负责善后。」这些问题需要强力的配对:受试者被要求找出他所愿意捐献的金额,与他对海鸟奄奄一息所感受到的情绪强度,有些受试者一开始就被问到锚点问题:例如,「你愿意捐5美元……」然后,才问你愿意捐多少钱。
会参访探索馆的人,一般来说,都对环保意识较敏感。当没有锚点问题时,愿意捐的平均金额是64美元。当锚点只有5美元时,他们愿意捐的金额降到20美元,当锚点高到有点离谱的400美元时,他们愿意捐的金额上升到143美元。高锚和低锚的差异是123美元,锚点效应是30%。这表示,一开始增加100美元的要求,平均可得到30美元的回馈。同样的,在各种估计或捐献实验中,甚至可以看到更大的锚点效应。例如,饱受污染之苦的法国马赛市民被问到他们愿意多花多少钱,移居到比较不受污染的地方,得到的锚点效应是50%。在线上交易时,最容易看到锚点效应。同样品项在不同的「立即买」(buy now) 有不同的价钱,尤其在艺术品的拍卖上,「估价」就是一个锚,它影响第一个出价的人。
当然,锚点也有合理的情况。毕竟,那些被问到困难问题的人一定会抓住救命的稻草,这个锚是看似合理的稻草。假如你一点都不了解加州的树,当别人问你红杉可不可能长到120英呎,你可能会推论这数字跟真相相差不远,是知道红杉会长多高的人所想出的问题,所以这个锚可能是个有价值的暗示。然而,锚点研究最主要的发现是,即使很显然是随机数字的锚,也跟有讯息价值的锚一样有效。当我们用幸运大轮盘请受试者估计联合国的非洲会员国数时,锚点指标为44%,是在锚点暗示的有效范围之内,相似大小的锚点效应在很多的实验上有观察到,这个实验以受试者社会安全号码[2] (social security number) 的最后几码做为锚点来,估计这个城市有多少医生。结果非常的清楚:锚点失去了作用,因为人们对脑海中的资料有信心。
随机锚点的力量在下面这个实验中可以看到。实验者请有十五年审判经验的法官先读一个女性在大卖场偷东西失手被捕的案子,然后请他们掷两个骰子,但是这两个骰子被做了手脚,每次掷出来不是3,就是9。骰子一停住时,实验者就问法官,他对那个偷东西的女人的刑期判决,会多于骰子的数目还是少于骰子的数目。最后,实验者请法官写下他们会判多久的刑期。平均来说,掷出9的法官会判8个月的徒刑;而掷出3的法官会判她5个月,锚点效应是50%。
使用和滥用锚点
现在,你应该已经很相信锚点的效应了。有的时候它是来自促发作用,有的时候来自不适当的调整。这个现象到处可以看得到。产生锚点作用的心理机制让我们太容易受别人的影响,远比我们愿意承认的多得多。当然,也有许多人很乐意、也有办法利用我们的愚蠢。
锚点效应解释了为什么限量购买在行销上很有效。几年前,爱荷华州苏市 (Sioux City, Iowa) 的超市打出促销广告:康宝浓汤 (Campbell's soup) 减价10%。某几天,广告牌上写「每人限买十二罐」,某几天广告牌又写「购买数量不限」。结果在限买十二罐的日子,消费者平均买七罐,比没有限制数量时多了两倍。不过锚点不是唯一的解释,限量配给给人的感觉,是物品不够,只能限量分配,货品很快会从架上消失。它给消费者一种急迫感,最好赶快囤点货。但是我们也知道,12罐就是一个锚点,它会产生锚点效应,哪怕12这个数字是从幸运大轮盘中产生的。
我们在买房子时的讨价还价上,看到同样的策略。卖方定售价,他走了第一步,就像许多游戏一样,先走第一步是有好处的,尤其在单一议题的协商上,例如价钱是买方和卖方唯一要谈的东西。你可能在跳蚤市场经验过讨价还价的过程。第一个锚是最重要的锚点,有着强有力的作用。在我教授协商课时,我都告诉学生,假如你认为对方是漫天喊价,开出不合理的价格,你不应该提出一个同样不合理的出价,杀得太低反而会制造无法或很难协商的差距。你应该假装生气,大声喊叫,马上离开或威胁要离开,你要很清楚地让对方知道,你不会继续以他的开价协商。
心理学家贾林斯基 (Adam Galinsky) 和马斯魏勒提出一个微妙的方式来抵抗讨价还价时,锚点效应的影响。他们教学生把注意力集中到记忆的搜索上,以抵抗锚点效应,这个活化系统二的策略是成功的。例如,当出价者(第二个人)把注意力放在对方可以接受的最低价,或协议不成时对方的损失,锚点效应会减少,甚至消失。一般来说,特意为对方着想的策略,可能是抵抗锚点效应很好的防御方式,因为它把产生锚点效应的偏见思想扳正了。
最后,试试看如何去除公共政策中的锚点效应:个人伤害的赔偿裁定。这类赔偿数目有时非常大,常被告的公司行号(如医院和化学公司)就游说立法委员为赔偿设一上限,在你读本章之前,或许认为赔偿上限可能对被告有利,但是现在你不确定了。假设上限是100万美元,它会阻挡掉更大额的赔偿,但是这个锚点也会把很多小额的赔偿金额拉高,这些本来应该很低的赔偿金额会因为锚点设在100万美元而大大提升了。你可以确定,锚点效应对严重伤害及大公司的好处大于小公司及轻伤。
锚点和两个系统
随机锚点的效应对了解系统一和系统二之间的关系很有帮助,锚点效应过去都是用判断和选择的作业来研究,这是系统二的范围。然而,系统二是在系统一自动、非自主性的运作下,根据记忆中提取出来的资料做判断,所以系统二会受到锚点效应的影响,因为它使某些讯息容易被提取出来。此外,系统二完全不知道有这个效应存在,也没有控制权。接触到随机或荒诞的锚点(如甘地的死亡年龄是144岁)的受试者,可以很自信地拒绝这个显然无用的讯息,并认为不会对他们的估计产生影响──他们错了。
我们在小数原则中有讨论到,一则讯息(除非它是谎言,马上被拒绝)不管它的可靠性如何,都会对联结系统有同样的作用。讯息的重点就是个故事,这个故事是基于手边所有的讯息组成的,即使讯息量很少、品质很差也一样有效:WYSIATI。当你读到拯救山难者的英雄故事时,它影响联结记忆的作用就跟新闻报导或电影情节一样。锚点效应来自记忆的活化,这个故事是否为真、可信,其实不重要。随机锚点的强大影响是这个现象的极端例子,因为随机锚点显然不可能提供任何讯息。
我在前面谈到促发作用的各种型态,你的思想和行为会受你根本没有注意到的刺激影响,甚至你根本没觉识到的刺激也会影响你。促发作用的研究主要是告诉你,你的思想和行为是受到当时环境的影响,这个影响比我们知道或想要的都多得多。许多人不肯相信促发作用,因为它和你的主观经验相去甚远;许多人不喜欢促发作用的结果,因为它威胁到我们自主性的主观感觉。假如一个不相干电脑萤幕图案会影响你,使你愿意帮助陌生人,而你自己并不知道是这个原因,那你有多自由呢?锚点效应也是同样令人感到威胁,就算你一直知道有这个锚点,也注意到它,但是你还是不知道它如何引导你,规范你的思想,因为你无法想像假如锚点改变或是没有这个锚点的话,你会怎么想。不过,你应该假设任何一个在桌上的数字对你都有锚点效应,假如代价太高,你应该动用系统二(就是你自己)去对抗它。
说到锚点
「我们想要并购的公司送来了他们的商业计划,包括预期营收,我们不应该被那个数字影响,把它放到一边去。」
「计划都是描述最好的状况,我们在预测实际结果时,避免把锚点设在计划上。去设想计划可能失败的各种方式是预测真正结果的一种方法。」
「我们协商的目的是使他们锚点落在这个数字上。」
「让我很清楚地告诉你,如果这是他们的提案,协商就破裂了,我们不想从那里开始。」
「被告律师轻浮地提出一个低得不合理的损害赔偿金,而法官把锚下在那一点上了。」
12 可用性的科学
特维斯基和我研究成绩最好的一年是在1971-72年间,我们在奥瑞冈州尤金市 (Eugene, Oregon) 做研究的时期。我们受邀去访问奥瑞冈研究院 (Oregon Research Institute),那里有好几个各领域的未来之星,我们在那里展开对判断、决策,和直觉的研究。我们的东道主是史洛维克,他是特维斯基在密西根大学的同学,也是他终生的朋友。史洛维克那时正在朝风险 (risk) 这个领域领头羊的地位前进,他后来果然成为该领域的顶尖学者长达数十年,领过许多奖。史洛维克和他的太太罗丝 (Roz) 带领我们融入尤金市的生活,我们很快做尤金一般市民做的事──慢跑、烤肉,带孩子去看篮球赛。我们同时也很努力工作,做了几十个实验,写判断捷径的论文。晚上,我则埋首撰写《注意力和努力》这本书,那是忙碌而完美的一年。
我们的计划之一是研究「可用性捷径」。我们问自己:人们在估算一个类别的频率时会怎么做,例如「六十岁以后离婚的人」或「危险的植物有多少」。这答案非常简单:看我们能从记忆中提取多少这类例子出来,假如提取是容易且流畅,那么这个类别会被判断为很大。我们定义「可用性捷径」为「依例子进入心中的容易程度,做为频率判断的历程」。当我们想出这个定义时似乎很清楚,但是「可用性」(availability) 的概念后来被修正、精致化了许多。当时,两个系统的理论尚未发展出来,我们并没有想到应决定这个捷径是个特意的问题解决策略,还是一个自动化的操作。我们现在知道两个系统都有参与。
我们那时所想的是,要提取出多少例子,我们才会觉得是很容易?我们现在知道答案是:一个都没有。例如:请用下面两组字母尽量组合出字来,愈多愈好:
XUZONLCJM
TAPCERHOB
你在没有找到任何一个例子之前,就马上知道其中一组较容易组合出更多字,可能容易十倍左右;同样的,你不需要找出某则特定新闻,就知道哪个国家在过去一年上新闻的次数比较多(如比利时、中国、法国、刚果、尼加拉瓜、罗马尼亚等)。
可用性捷径就像其他判断捷径一样,可以用一个问题来替代另一个问题。你想估计某个类别的大小或某个事件出现的频率,但是你报告的,其实是这些例子来到你心中的容易度所带给你的印象。替代问题不可避免会导致系统性错误。你会发现,捷径如何用一个简单的历程导致偏见:列出频率以外,其他很容易想出的例子。你单子上的每个因素,都是偏见的可能来源。例如下面事件:
- 凡是吸引你注意力的鲜明事件,会很容易从记忆中提取。好莱坞电影明星离婚和政客性丑闻会吸引很多人的注意力,所以这些事件很容易进入你心中,因此,你比较可能夸大好莱坞明星离婚和政客性丑闻的频率。
- 戏剧性的事件会暂时增加这个类别的提取可能性。飞机失事会引起媒体的大幅报导,这会暂时改变你对飞行安全的感觉;在你目睹汽车在路边燃烧后,这个意外事件会留在你心中一阵子;有好一阵子,世界对你来说是个危险的地方。
- 个人的经验、影像和生动的记忆,都会比发生在别人身上的事、单纯的文字,或统计数字,容易提取。法官的误判会使你对司法失去信心,你的切身之痛远比你从报上读到相似事件来得印象深刻。
你可以尽量抵抗这个容易取得的大量讯息所造成的偏见,但是会很辛苦。你必须花精神重新考虑你的印象和直觉,并问自己这类问题:「我们把青少年偷窃看成主要问题,是否因为社区最近发生好几起类似案件?」或是「我认为没有必要注射流感疫苗,因为我认识的人里,去年没有一个人感染流行性感冒。」时时维持你对偏见的警戒心是件辛苦的事,但是假如偏见带来的代价很高,那么还是值得这样做。
有个很著名的实验指出,觉识到你自己的偏见,可能会为婚姻带来和谐,也可能使你在其他合作专案上,与他人关系融洽。在这个研究中,实验者问参与访谈的夫妻:「你在维持家的整洁上,贡献有多大?请以百分比表现之。」同样,他们也要回答其他类相问题,如「倒垃圾」、「主动提议做社交活动」等等,你觉得你的贡献度有多大?这个对贡献家事时间的自我评估会加总到100%吗?还是不到100%?如我们所预期的,自我评估做家事的时间加起来超过100%。可用性偏见 (availability bias) 即可解释这个例子。夫妻两人都记得自己的贡献,而且记得自己所做的远大于记得配偶所做的,这个差异导致对频率判断的不同。但是这偏见不见得对自己有利:配偶常高估自己的贡献,以至于引起吵架[1],这个偏见也在需要合作的团队中看到。每个人都是觉得自己做的比应该做的还多,而别人都不感激他,或别人没有表达出他认为自己应得的感激。
一般来说,我对人们控制偏见的能耐并不这么乐观,不过这里是个例外。你可以成功地把偏见清除掉,因为现在是一个讲究团队合作的时代,你常会看见团队中好几个人同时觉得自己的努力没有被老板或同侪看到,没有得到适当的奖励。只要看到每个人觉得自己的努力加起来超过100%时,你就要赶快把这不满的引线解掉,以免累积到最后,情绪爆炸。无论如何,每个人都要记得,你偶尔会做的比你应该做的还多,但是你要知道,团队中每一个人也可能都有同样的感受。
可用性心理学
可用性捷径的研究在1990年代初期突飞猛进,因为在施华兹 (Norbert Schwarz) 的领导下,德国研究团队提出了一个很具启发性的问题:人们对某一类别频率的印象,会不会被我们要求他写下多少数量的例子,而受到影响?想像你自己是下面这个实验的受试者。
请列出6个你觉得自己行事果决的例子来。
然后,请评估你自己是不是一个很有决断力的人。
再想像你被要求列出12个你行事果决的例子(大多数人都觉得很难列到12件这么多)。这时,你再评估自己是不是个有决断力的人,会不会跟上面列出6个例子时有差别?
施华兹和他的同事观察到,写出上面这些例子的作业,在两种方式下,可加强受试者的判断。
- 能够从记忆中提取出例子的数量。
- 这些例子有多容易来到你心中。
对被要求写出12个例子的人来说,这两件事是有些矛盾的。一方面,你刚从记忆中提取出几个行事果决的例子;另一方面,前面三、四个例子都很轻易进入你心中,但是后面的就要好好想一想了。结果,是例子的数量,还是提取的容易度和流畅度比较占优势?
结果非常明确:那些好不容易想到12个例子的人,觉得自己的决断力不及写出6个例子的人。此外,被要求写出12个没有决断力例子的人,觉得自己其实还相当有决断力。假如你好不容易才想出12个优柔寡断的例子,当然会认为自己很有决断力,自我评估是受到容不容易想到例子所影响。从记忆提取有多流畅,比提取的数量更重要。
这一组的其他心理学家对流畅性做了一个更直接的研究。在这个实验中,所有受试者都要写下6个很有决断力或没有决断力的例子,在写的时候脸上要保持「微笑」或是「皱眉」,你从前面已经知道,皱眉会伴随认知紧张的感觉。这个效果是对称的:当人们做作业要皱眉时,他们真的会更努力做,经验到更多认知紧张。研究者预期皱眉组在提取有决断力行为的例子时,会遇到较大的困难,所以把自己评估得较没有决断力,结果也确实是如此。
心理学家喜欢得出矛盾结果的实验,他们把施华兹的发现热心地广泛应用,例如:
- 在回忆出自己多次骑脚踏车的经验后,人们认为自己并不常骑脚踏车。
- 当要求人们找出更多论点来支持自己的看法时,他反而变得比较没有信心。
- 在列出很多可以避免事故的可能性后,人们对事故的可避免性反而比较没有信心。
- 人们在列出这部车的很多优点后,反而对这部车的印象没有那么好了。
美国加州大学洛杉矶分校 (UCLA) 的教授发现了一个很聪明的方法,可以探索可用性偏见造成的例子。他请不同组的学生写下如何改进一门课,每组的改进点不能相同。正如我们预期的,那些必须写出更多改进方法的学生,对这门课的评分最高。
或许这个矛盾研究最有趣的发现,是矛盾不一定每次都找得到。人们有时依照提取的内容,而不是依照提取的容易度来判断。你真正了解一个行为形态的证据是,你知道如何把这行为反过来。施华兹和他的同事发现,在某个情境下,会发生倒过来的行为。
他们使受试者很容易想到前面几个例子,但是后面的例子就变得很难想得出来。当然,受试者本来也知道后面的例子不会像前面那么流畅就想出来,但是从6个到12个例子,流畅性下降的幅度实在太大了,超出受试者自己的预期。结果受试者就做了这个推论:假如我要比预期的辛苦这么多倍才能找出这些例子,那我一定不是很果断的人。请注意,这个推论是根据惊讶而来的──流畅性比预期的还要差。对此例中的受试者而言,比「可用性捷径」更好的名词应该是「无法解释的不可用性」捷径 (unexplained unavailability heuristic)。
施华兹和他的同事认为可以中断这个捷径,并告诉受试者他们所经验到的提取流畅性是因为他们听到的背景音乐其实不是普通的音乐,而是能够帮助他们回忆和提取的音乐;另外一组受试者则被告知背景音乐会干扰他们提取回忆,使表现变差。结果,经验到「流畅」提取的受试者并没有用流畅度做为捷径;被告知音乐会干扰提取的受试在提取12个例子时,评估自己的决断力跟评估在提取6个例子时相同。用其他故事去解释流畅度的实验,也常得到同样的结果:受试者的判断不再受到提取容易程度的影响,而归因到实验者所给的假的理由上面。有些实验者告诉受试者,电脑萤幕的颜色会增强或减弱他的表现;有些实验者告诉受试者,测试箱上的直线或曲线会增强或减弱他的提取;或是任何实验者想出来跟实验毫无关系的理由,但足以骗得过受试者的故事都会有效。
如我前面说过的,导致决定的历程其实是一个相当复杂的推理程序,受试者在写出例子来时,会经验到文思枯竭、想不起来的困境,他们当然知道例子会愈来愈难想得出来,但是他们的预期错了:想起新例子的困难度比预期中快多了,被要求写出12个例子的人因为这个低提取率,而对自己失去信心。当惊讶被去除时,低提取率就不再影响判断了。这看起来是一个非常严谨的推论历程。自动化的系统一有能力做到吗?
答案是,其实不需要复杂的推理。在系统一的基本能力中,有一个就是设定预期的能力。假如违反预期,它会很惊讶,系统一也会寻找引起惊讶的可能原因,通常是从最近发生的惊讶中寻找。此外,系统二可以重新设定系统一的预期,使一个本来会引起惊讶的事件变得正常。假设有人告诉你,隔壁的三岁小男孩通常会在娃娃车中戴着大礼帽,那么,当你真的看到他戴着大礼帽时,会比没有被事先警告,突然看见他这样,少了很多惊讶。在施华兹的实验中,实验者告诉受试者,背景音乐是提取困难的原因。所以提取12个例子的困难对受试者来说就不那么惊讶了。因此,他们在判断自己的果断程度时,就比较不会受到作业的影响。
施华兹和他的同事发现,做跟自己相关的判断的人,比较会考虑从记忆中提取出例子的数量,比较不受流畅度的影响。他们找了两组学生来做心脏血管疾病机率的研究。一组受试者是有心脏病家族史的,他们对这个作业的态度就比没有家族史的来得严肃。所有受试者都被要求回想出3个或8个日常生活中有可能影响心脏病发作的行为(有的要写增加危险的行为,有的要写预防的行为)。没有心脏病家族史的受试者对这个作业就没那么在意,是可用性捷径的关系。所以,很难写出8个危险行为的人,认为自己相对安全,不会有心血管疾病。而那些努力回想自己做过什么预防行为的人,觉得自己可能得当心一点。至于那些有心脏病家族史的受试者,他们的行为正好相反──当他们回想出许多安全行为的例子时觉得很安全;当他们回忆出许多危险行为时觉得非常危险,也觉得自己未来的行为会受到自己对危险行为评估的影响。
结论是,如果很容易想到例子,那是因为系统一走捷径,当需要系统二花比较多力气时,这个捷径会被提取的内容所取代。不同实验室所做出的不同实验证据,都指向同一个结论:那些受系统一主导的人有比较强的可用性偏见,在下面一些例子的情况中,人们比较容易跟着感觉走,受到提取容易度的影响,比较没去管提取出来的例子内容:
- 当他们同时在做另一件很花精神的工作时。
- 当他们正好想到一件快乐的事情,心情很好时。
- 假如他在忧郁症量表上得分很低时。
- 假如他们在这个作业上是个新手。
- 当他们在直觉信心量表上,得分很高时。
- 假如他们是(或实验者使他们觉得)很有力的人士。
我对最后一项特别有兴趣。作者在这篇论文的开头引用了美国总统布希在2002年11月说的一句名言:「我不需要花很多时间去全世界做调查来告诉我,我的想法是正确的,我只要知道我的感觉就好了。」实验者接着说,仰赖直觉有一部分是人格特质,他只是提醒,人们有时候会强有力地增加自己对直觉的信任,虽然不见得正确。
说到可用性
「因为上个月,两架飞机相撞,她现在只敢搭火车,她真傻,失事的机率并没有因此而增加,这是可用性偏见在作祟。」
「他低估了室内污染的危险性,因为媒体很少报导,这是可用性效应的现象。他应该去查一下统计数字。」
「她最近看了太多间谍电影,所以觉得到处都有阴谋。」
「这位执行长最近有好几个案子都很成功,所以失败的可能性不容易进入她心中,可用性偏见使她过度自信。」
13 可用性、情绪和风险
研究风险的人马上就看出,可用性跟他们的领域很有关系,即使在我们的研究还没有发表之前,经济家学库鲁瑟 (Howard Kunreuther) 就发现,可用性效应 (availability effect) 可帮助解释灾后买保险和采取防护行动的行为模式,那时库鲁瑟的事业不过刚起步,只是个研究风险和保险关系的年轻学者。受灾户或可能的受害者都非常关心保险的问题。每回大地震过后,美国加州住户总是有一阵子会非常紧张地狂买保险,并采取各种措施以保护自我和减轻损失。他们将热水炉固定好以防在地震中损坏、把地下室的门缝封紧防堵洪水进来,还有确保急用物资准备就绪[1]。然而,地震的记忆随着时光流逝而淡去,人的警戒心也一样。记忆的动态性,为灾难发生、灾后担忧关心,然后逐渐松懈自满的周期循环提供了解释,研究大灾难的人员也一再看到这种循环发生。
库鲁瑟同时观察到,不论是政府还是个人的保护措施,通常都是依照他们经历过的最糟的、最严重的灾难所设计的。就像埃及法老王时代,人们是按照尼罗河曾泛滥的最高水位做记号,然后依这个记号做准备,也就是假设洪水不会超越这个警戒点。因此,人们很难想像更糟会是什么样子。
可用性和情意
最有影响力的可用性偏见实验,是我们在尤金市的朋友──史洛维克和他长期的合作者列支斯坦 (Sarah Lichtenstein) 及我们以前的学生费希霍夫 (Barush Fischhoff) 一起合作完成的。这项了解大众对风险看法的开创性研究,现已成为可用性偏见的标准范例。他们提出两组死亡原因:糖尿病和气喘;中风和意外。要受试者思考各组中哪一个是较常发生的死亡原因?发生率高多少?他们把判断结果跟当时的统计数字相比较,下面是他们调查发现的一些例子:
- 中风死亡人数其实比所有意外的死亡人数加总起来还高两倍,但是80%的受试者判断,意外致死的人数比较高。
- 虽然死于气喘者是被龙卷风袭击致死的20倍,受试者却认为,因龙卷风死亡的数量比死于气喘者多。
- 受试者认为,被雷打死的人比食物中毒而死的人少,其实被雷打死的人数比因肉毒杆菌而死的多了52倍。
- 病死是意外死亡的18倍,但是受试者却评得一样高。
- 意外死亡被认为是糖尿病致死的300倍,但事实上,应该是1:4。
这个教训很清楚:对死亡原因的预测受到媒体报导的影响。媒体报导本身就是偏好新奇和辛辣的。媒体不只是塑造大众有兴趣的议题,同时也被这些议题所塑造。编辑不能忽略大众的需求,于是对某些议题和看法特别加以报导。不寻常的事件(如因肉毒杆菌中毒而死)会吸引到广大观众或读者的注意,因此就被误认为没有那么不寻常了。我们大脑里的世界并不能精准反映真实世界。我们对事件发生频率的预期,也会受自己接触到讯息的频率及对事件的情绪强度所影响。
对死因的评估几乎是联结记忆中念头或想法激发的直接反应,它也是替代的好例子。但是史洛维克和他的同事却有更深层的洞见:他们看到,人们很容易就想到各种风险,而且对这些风险有强烈的情绪反应,两者紧密地纠缠在一起。可怕的念头和影像总是特别容易进入我们心里,而那些生动的危险想法又加剧了我们的恐惧。
如前面所说的,史洛维克最后发展出情意捷径的看法。他认为人们会依照情感来做判断和决定。我喜欢它吗?我讨厌它吗?我对它的感觉有多强烈?史洛维克说,人们在生活的许多层面中,会依感觉直接形成意见和做选择,他们自己其实不知道为什么会这样做。情意捷径是替代的一种,即对容易问题的回答(我对它的感觉是什么?)替代了比较难的问题(我对他的看法是什么?)。史洛维克和他的同事把他们的观点和神经科学家达马吉奥 (Antonio Damasio) 的研究联结起来。达马吉奥认为,人类对结果的情感评估、身体状态,以及跟这两者有关的趋前或逃避倾向,都在决策制定上扮演了重要的角色。他们观察到,那些在做决定前没有展露适度情绪的人(有时是因为大脑受伤),是无法做出好决策的。他们无法接受坏后果「健康的恐惧」(healthy fear) 的指引,常会走向灾难性的结局。
史洛维克在一个很令人信服的研究中,呈现情意捷径运作的方式。他的研究团队调查人们对各种科技的意见,包括饮用氟化水、化学工厂、防腐剂,和汽车。他请受试者列出每一种科技的好处和风险,并观察到受试者给的两个估计值之间有非常高的负相关:他们对一种科技的好处评价和对它的风险程度预估之间出现负相关。当人们喜欢某项科技,他们会说科技带给人类很大的好处,并把风险评得很低;当他们不喜欢某项科技时,他们只想到它的坏处,想不起有什么好处。由于这些科技是从好到坏,依序排开,没有任何利益交换可言,如果是在时间压迫下做评估,人们对风险和好处的评估更是接近。令人惊讶的是,英国毒物协会 (British Toxicology Society) 会员的反应也是如此:他们对自己认为有风险的物质和科技评得非常低,一无是处,但对喜欢的却评得很高,没有坏处。这种一致性的情意,就是我称之为「联结连贯性」的主要元素。
下面是这个实验最精采的部分。做完问卷以后,受试者要读一篇短文,内容是对各种科技的支持。有的受试者是读某科技的各种益处,其他受试者读的是强调该科技没什么风险,这篇短文很有效地改变了受试者对这项科技的情绪。令人惊讶的是,那些读到科技好处的受试者也改变了他们对风险的看法,虽然他们并没有接受任何相关证据。现在他们比较喜欢这项科技,同时也认为风险较小。同样的,那些读到这项科技风险低的受试者,也发展出比较喜欢该科技好处的态度。结果是很清楚的,就像心理学家海特 (Jonathan Haidt) 在〈情绪的尾巴摇动着理智的狗〉(The emotional tail wags the rational dog) 一文所说的,情意捷径简化了我们的生活,因为它创造的世界比真实世界更井然有序。好科技在我们所居住的想像世界中,坏处很少,坏科技则一点好处都没有。所有决定在这里都变得很容易,当然,在真实世界里,我们常得面对利益和成本痛苦的权衡。
大众与专家
史洛维克对人类如何做出风险判断,知道的可能比任何人都多。他的研究让老百姓看到自己是怎么做决策:一般人是受到情绪指引而不是理智,我们很容易因不重要的细节而改变心意,对低机率和可以忽略的极低机率之间的差异,一点都不敏感。史洛维克也研究专家,他们在处理数字上显然比一般人强,但专家跟我们一样有各种偏见,只是形式弱一点而已。不过,他们对风险的判断和偏好与一般人很不一样。
专家和一般老百姓的判断差异,有一部分可以用偏见来解释,但是史洛维克让我们看到,在很多情境中,这个差异其实反映了价值观的冲突。他指出,专家通常用死亡人数或寿命来测量风险,而老百姓的区分则比较细腻。例如,「善终」(good death) 和「非善终」(bad death),或随机的意外死亡和自主活动中的死亡(如滑雪)。统计常常忽略这些合理的差异,只计算数字。史洛维克从这些观察中归纳出:老百姓对风险的概念比专家丰富,因此,他强烈抵抗应该由专家来做决定的看法。当专家意见跟老百姓的意见有冲突时,他不认为应该无条件接受专家的意见。当专家与老百姓的优先顺序不同时,他认为:「双方都应该尊重对方的洞见和智慧。」
在他想要把风险的控制从专家手中抢夺出来的努力中,史洛维克挑战这些专家的根本概念──风险是客观的。
风险并不能脱离我们的心智和文化而独立存在,等着我们去测量。人类发明了「风险」的概念,是为了帮助他们了解和应付生活中的危险和不确定性。虽然这些危险是真实存在,但是世界上并没有所谓「真正的风险」(real risk) 或「客观的风险」(objective risk) 这种东西。
为了说明这一点,史洛维克列出九种界定毒气外泄到空气中死亡风险的方式,从「每100万人中死亡一人」到「每生产100万元产品造成的死亡」。他的意思是,风险评估决定于你采用的测量方法,而测量方式的选择很可能会受到偏好某一种结果的影响,他接着下结论说:界定风险是权力的角力 (defining risk is thus the exercise in power)。你可能不会猜到,你居然能从心理学判断研究的实验中得出这么辛辣的政策议题!然而,政策终究是跟老百姓有关的,包括老百姓要什么,什么对老百姓最好。每一个政策都牵涉对人性的假设,尤其是老百姓可能做的选择,以及选择的结果对他们自己和社会的影响。
另一个我很景仰的学者兼朋友孙斯坦 (Cass Sunstein) 完全不同意史洛维克对专家和老百姓的看法,他捍卫专家的角色就像抵抗民粹主义进攻的堡垒一样。孙斯坦是美国最著名的法律学者,而且无畏与其他同领域领袖分享看法。他知道他可以很快掌握任何领域的知识,他也真的做到了,包括判断和决策心理学及规范和风险政策。他认为,美国目前监管体系的优先顺序非常糟,只是对公众压力做出反应,而不是经过仔细客观地分析具体情况。他认为,为减低风险而采取的风险规范和政府干预,应受合理权衡成本和益处的引导,其分析单位应该是有多少人能获救(或拯救多少年的寿命,这增加了救助年轻人的比重)以及经济上的成本开支。监管不力会浪费生命与金钱,这两者都应该被客观测量。孙斯坦没有被史洛维克对风险和测量是主观的论点所说服,风险评估在很多方面是值得商榷的,但是他对风险的客观性有信心,认为透过科学、专业和仔细的审议可能达成。
孙斯坦认为,对风险的偏见反应是公共政策优先顺序不对、不稳定的重要原因。立法者和执行者可能对老百姓的不合理要求过度反应了,因为他们都有政治敏感度,也因为他们和老百姓一样,容易犯同样的认知偏见。
孙斯坦和他们的合作者法学家库伦 (Timur Kuran) 把偏见影响政策的机制称作「可用性级联」(availability cascade)。他们说,在社会情境里,「所有捷径都相等,但是可用性比别的更相等。」在他们心中对捷径有较扩充的看法,除了频率以外,可用性还提供判断的捷径。尤其是概念的重要性通常是依它从记忆中提取的流畅度和情绪来判断。
可用性级联是一个自续的连锁事件,可以从媒体报导的一个很小的事件,到大众恐慌,以及政府大规模的反应。在一些情况中,媒体对某个风险的报导故事抓住了大众的注意力,转而变成警戒与担忧,这种情绪反应又促使更多媒体去报导它,引发更多的关心与政府干预。这种周期循环有时会因「可用性企业家」(availability entrepreneurs) 的特意介入而加速,这些个人或组织持续使这个令人担忧的新闻一直出现,一直流传。媒体竞相制造吸引注意力的头条新闻,使得危险更加夸大。科学家和其他有识之士想要阻止这种持续增加的恐惧和厌恶情绪,使它得不到媒体的注意或是引来敌意—任何人敢说这个危险被夸大,马上会被怀疑是一手遮天或包庇。这个议题变成政治上重要的议题,因为每一个人都关心它,而政治体系是受到群众感情强度的指引。可用性级联现在就要重新设定优先顺序了。其他风险和原本可对大众有益处的资源,现在全都隐匿到背后去了。
库伦和孙斯坦聚焦在至今仍有争议性的两个例子上,第一例是勒夫运河 (Love Canal) 事件[2] 的废料都埋在那里。后来人口愈来愈多,尼加拉市政府便在上面填土开发,盖房子、建学校。1979年,一场大雨把地底下的毒物冲出来,秽气也随之出现,居民才发现原来他们住在垃圾堆上。居民的愤怒和恐惧是可想而知的,其中有一个叫吉布斯 (Lois Gibbs) 的人,热中于维持人民的愤怒和恐惧热度。这个可用性级联就依照标准剧本一幕幕展开了。在这事件最受关注的时候,每天新闻都有勒夫运河的故事,科学家解释说这个危险被夸大了,但是根本没人理,而且被轰下台。美国广播公司 (ABC) 制作了一个节目叫「杀人的土地」(Killing Ground),节目中,人们擡着空的婴儿棺材在市议会前游行。结果由公家出钱让大部分勒夫运河的居民搬迁,毒物废料的控制变成1980年代环保的主要议题。政府制定了规定毒物清除的法律,叫做CERCLA,并成立超级基金 (Superfund),这件事被认为是环保立法的一大成就。这些措拖非常昂贵,有些人认为同样的钱如果用在别的地方,可以救助很多人的性命。至于勒夫运河事件究竟是怎么一回事,到现在仍然有两派意见,对健康造成的伤害到现在没有实质的证据。在库伦和孙斯坦笔下,勒夫运河事件几乎像个假事件,而环保人士则仍然把它称为勒夫运河灾难 (Love Canal Disaster)。
第二个例子的意见也很分歧。库伦和孙斯坦用「阿蜡事件」(Alar incident) 说明「可用性级联」的观念。阿蜡是一种化学物质,喷在水果树上可保持水果颜色鲜艳、同步成熟、易于收采,最常用在苹果上。恐慌起于新闻报导说这种药会致癌,这种故事当然马上引起老百姓惊慌,而恐惧的情绪又吸引更多媒体去采访,这就是可用性级联的基本骨干。这个主题主控了1989年的新闻,电影明星梅莉史翠普去国会作证,人们不敢吃苹果、不敢喝苹果汁,及任何跟苹果有关的东西,让苹果业受到重大打击。库伦和孙斯坦引用电视节目叩应者的话:「把苹果汁倒进下水道安全吗?还是要送到毒物处理中心去[3]?」。公司只得回收这个产品,美国食品检验局禁止它用在食品上。后来的研究发现,这种化学物质会引起癌症的机率其实非常小。但是阿蜡事件绝对是对一个小问题的超巨大反应。这个事件对公共健康的净效益是不利的,因为人们连好的苹果都不敢吃了[4]。
阿蜡事件显示,心智对付小小的风险其实一点用也没有:我们要不是忽略它,就是太看重它──并没有中间的地带。每天晚上等女儿从派对回家的父母都有这种感觉。你可能知道没有什么好担忧的,但是你没有办法不去想那些一直涌上心头的灾难影像。就像史洛维克说的,你关心的程度跟伤害可能发生的机率是不成比例的:你想的是分子(你在新闻报导上看到的悲剧故事),你没有想到分母。孙斯坦创造了「机率忽略」(probability neglect) 一词来形容这种行为。机率忽略加上可用性级联的社会机制,不可避免地把小小的威胁放大一百倍,有时甚至导致严重后果。
当今的世界里,恐怖份子是最会利用可用性级联达成目的的人。除了几个重大的恐怖攻击事件(如911),因恐怖攻击死亡的人数,比起其他死因只占很小的比例。即使在被恐怖份子视为攻击目标的以色列,每个礼拜因恐怖份子而死亡的人数从来没有像交通意外死亡那么多。问题出在这两种风险的可用性,它们有多容易被想起来,以及有多少例子进入你心中。电视不停播放血肉模糊的影像,使每个人的神经都紧绷,据我的经验,这是你最不可能用讲理的方式使一个人冷静下来的例子。恐怖主义直接跟你的系统一对话。
这两个朋友的争论,我应站在哪一边呢?可用性级联是个真实现象,它无疑扭曲了许多公家资源应该摆放的优先顺序。孙斯坦会探索把决策者跟大众压力绝缘的机制,让公共资源的分配,交由对风险有宽广看法的专家来决定。史洛维克不相信专家,他对民众的信任远比孙斯坦高。他指出,民主社会无法把专家跟民众情绪隔离,这样制定出来的政策,老百姓也不能接受。他们两人都非常有道理,我同意他们两人的说法。
我跟孙斯坦一样对不合理恐惧和可用性级联对公共政策的影响觉得不舒服,然而,我也了解史洛维克的看法──即使是不合理的恐惧,只要大多数人都有这种恐惧,政策的制定者就不该忽略它。不论合不合理,恐惧是件痛苦的事,执政者应该努力保护民众免于恐惧,这不单指真正的危险,还包括老百姓心中莫名的恐惧。
史洛维克强调,老百姓会抗拒非民选、也不见得懂的专家做决定,我觉得他是对的。此外,可用性级联使老百姓看到风险的可能性,也让政府编列减少风险的预算,这些都有长期的效益。勒夫运河事件可能使太多资源导向清除毒废料上,但是它同时也提升了民众对环保的意识。民主社会不可避免会比较混乱,部分原因是可用性和情意捷径会造成老百姓信念和态度上的偏见,即使这些因素都指着对的方向。心理学应该告诉老百姓,好的风险政策应该由专家的知识,加上老百姓的情绪和直觉一起制定才对。
说到可用性级联
「她在鼓吹一个只有收益没有成本的创新计划,我怀疑这只是情意捷径。」
「这是一个可用性级联的例子:媒体和民众炒热一个事先大肆宣扬的事件,直到新闻充斥电视萤幕,变成每个人在讨论的主题。」
- 我那时在加州大学教书,我的同事很自豪地说,他们家除了人和猫,所有东西都固定住了,除非墙倒了,他们家的热水炉是八个人都擡不走的。

- 十八世纪末期,美国企业家威廉勒夫 (William Love) 希望把尼加拉河被尼加拉瀑布所区隔开的两岸连接起来,所以他挖了一条运河,叫勒夫运河,但是因为遇上1892年经济崩盘,只挖了一英里就停止了,留下一个15呎宽,10呎深的大沟渠。后来这块地在1920年卖给政府,政府就把它当作垃圾掩埋场,尤其在1942-1953年间,虎克化学公司 (Hooker Chemical) 的废料埋在哪里。

- 从这句话中可以看出人们是多不理智,苹果汁顶多有阿蜡农药残留,怎么会对下水道的铁管有伤害呢?事实上,这个报告一开始是给老鼠吃大量的药,发现牠们长了恶性肿瘤。先不说人跟老鼠有不同,光看到食用量就知道不应该恐慌。

- 一天一个苹果不必看医生。

14 汤姆的专业
请看一下这个简单的问题:
汤姆是你州里重要大学的研究生,请将下面九个研究所领域排序,标出汤姆就读这些领域的可能性,1代表可能性最高,9代表可能性最低。
企业管理
电脑
工程
人文与教育
法律
医学
图书馆学
物理和生命科学
社会学和社会工作
这个问题很容易,你马上知道,不同领域学生的人数比率,就是解决问题的关键。据你现在所知:汤姆是随机从这所大学的研究生中挑出来,就像要判定从罐子中取出的弹珠是红色还是绿色,你需要先知道罐子中这两种颜色的弹珠各有多少颗。某种颜色的弹珠在全体弹珠中占的比例,叫做基率 (base rate)。同样的,人文和教育的基率在这题里是指它的研究生人数占全体研究生的百分比是多少。在缺乏汤姆的特定资讯下,你只能依基率去判断,猜测他比较可能是人文和教育领域,比较不可能是电脑或图书馆学的,因为人文和教育研究所的学生多于另外两个科系。在没有其他资讯的情况下,采用基率的讯息是最好的方式。
接下来,请看一个跟基率完全无关的作业。
下面是对汤姆的人格素描,这是汤姆念高三时,心理学家根据一些心理测验结果写的,只不过这些测验的效度 (validity) 还不确定:
汤姆是个很聪明的学生,但缺少真正的创造力。他喜欢整洁和秩序,他的每一样东西,不管多少,都有条有理的摆放在恰当位置上。他的作文有点无趣、呆板和机械式,偶尔会出现一些陈旧、过时的双关语和类似科幻想像的句子。他的好胜心很强,对人冷淡,没什么同情心,也不喜欢跟别人来往。虽然以自我为中心,却有很强的道德感。
现在,请拿一张白纸,把刚刚那几个领域再排序一下,你认为汤姆最可能是哪个领域的研究生,1代表可能性最高,9代表可能性最低。
假如你试着做这个作业的话,就会对本章了解更深。你读到上面对汤姆的报告后,你对他会念哪一个研究所的判断,就跟前面很不同了。
下面这个问题也非常直接,需要提取或建构一个不同领域研究生的刻板印象。当1970年代,实验刚开始进行时,受试者的排序如下,跟你的排序可能不会有多大差异:
- 电脑
- 工程
- 企业管理
- 物理和生物科学
- 图书馆学
- 法律
- 医学
- 人文与教育
- 社会学和社会工作
你可能会把电脑排在最前面,因为文章中说他是书呆子,还会写些过时陈旧的双关语。事实上,汤姆是依典型的电脑科系研究生所写的。受试者排序第二高的是工程(因为他很爱整洁,喜欢有条理的系统)。你可能觉得汤姆跟你脑海中的社会学和社会工作者不相配(对人冷淡,没有同情心),专业的形象从我设计汤姆的描述以来,在这四十年间看起来没什么改变。
为这几个领域排序是很复杂的任务,需要纪律和组织,所以它属于系统二的范畴。然而,描述中各种暗示(如陈旧过时的双关语等),又容易激发跟典型有关的联结记忆,这是系统一自动化的工作。
这个作业要我们把对汤姆的描述跟各种领域的典型放在一起比较。这些描述的正确性与作业的目的无关,你不必管它是否真实描述了汤姆这个人;也与你对各领域基率的知识无关。个人跟群体典型人员的相似性,不受这个群体大小的影响,的确,即使这所大学中并没有图书馆系,你还是可以比较汤姆跟图书馆系研究生的典型。
假如你再次检视汤姆的描述,你会发现他其实跟校园中很多小团体的典型学生很符合(电脑系、图书馆系、工程系),但是就比较不符合大一点的团体(人文和教育、社会学和社会工作)。几乎所有受试者都把这两大领域排在最后面,我特意把汤姆设计成「反基率」人格,他符合很多小领域的专业,但不符合大领域的专业。
用表征来预测
同系列第三个实验是请心理系的研究生依汤姆最可能是某一个领域的研究生排序。这一群受试者知道相关统计事实:他们熟悉不同领域的基率,也知道有关汤姆的描述并不是这么准确(记得前面提到,心理测验的效应还不是那么准确)。我们预期这群心理系研究生会聚焦在汤姆的描述与典型的相似性上──我们称之为表征 (representativeness),而忽略基率以及对描述准确性的怀疑。他们将电脑排在第一位,因为汤姆最符合电脑系的表征。
特维斯基和我在尤金市访问那一年,非常卖力工作,我有时整晚都待在办公室中。我彻夜工作就是在写人格的描述,使表征和基率之间的冲突凸显出来。汤姆的描述就是我辛苦工作的成果,我在凌晨时写完他的描述,那天早上第一个来上班的是我的同事兼朋友道斯 (Robyn Dawes),他既是优秀的统计学家,也是一个怀疑直觉判断效度的人。假如有人能看出基率的相关性,那就非他莫属了。我给他看我刚刚写下的问题,并问他汤姆应该是哪个专业领域。我到现在还记得他那狡猾的笑容,他试着说:「电脑科系吗?」那真是个令人开心的时刻!当然,在我提到基率后,道斯马上发现他的错误,但是他并没有自动想到!虽然他跟别人一样,知道什么叫基率,也知道基率在预测上扮演的角色,但是我给他看汤姆的人格描述时,他还是忽略了基率。正如我所预期的,他用表征替代了我请他评估的机率判断。
特维斯基和我搜集了三所大学中114名心理系研究生的资料。他们全都修过统计学的课[1]。结果确实没有让我失望,他们对这九个领域机率的排序跟典型形象的排序并没有不同。替代在这里真是完美极了:受试者什么都没有做,就是依表征来判断,关于机率的问题较难回答,但是关于相似性的问题却较容易,所以受试者就回答了这个容易的问题。这是一个严重的错误,因为相似性的判断和机率的判断并不是受同一种逻辑法则的规范。你可以接受相似性的判断不受基率影响的事实,也可以接受描述不是很正确的可能性,但是如果有人在机率评估的问题上忽略基率证据的品质,就一定会犯错。
「汤姆是念电脑的机率」并不是一个简单的观念。逻辑学家和统计学家对它的意义有不同的意见,也有人说根本不具意义。对许多专家来说,机率是对信念主观程度的测量。有些事情你很确定,例如,早上太阳会升起来;有些事情你会认为是不可能的,例如太平洋全部结冰;又有一些事情,你的信念介于确定和不可能之间,例如隔壁邻居是电脑科学家──这就是你给这个事件的机率。
逻辑学家和统计学家都各自对机率发展出自己的定义,也都非常准确。对门外汉来说,机率(用日常生活的语言来说,就是可能性)是一个模糊的概念,跟不确定性有关。模糊性并不只针对机率这个概念,也不会特别的麻烦。我们在说话的时候,多少知道我们要用的字的意思,如民主或美丽;跟我们说话的人,多少也知道这个字的意思,晓得我们想说的是什么。多年来从事机率实验中,从来没有学生举手问:「老师,你说的机率是什么意思?」但是假如我要他们评估一个奇怪的概念,例如「全球性」(globability) 的话,他们一定会举手问我这个字是什么意思。每一个人都表现得似乎知道怎么回答我的问题,但我们都了解,要他们解释这个字,对他们很不公平。
被要求评估机率的人并没有被你难倒,因为他们根本不会像统计学家或哲学家那样用字,也不会去判断机率,像机率这样的问题会活化心智发散性,使受试者回答比较容易的问题。其中一个容易的答案就是对表征的自动化评估──这在语言中是个例行动作,这句话(假的)「猫王普利斯莱的父母亲曾希望他成为一名牙医」是有一点好笑,因为我们会自动侦察出猫王和牙医的形象,而两者实在相差很大。系统一会产生相似的印象,虽然它并不是特意这么做。表征捷径 (representativeness heuristic) 在有人说「她会赢这次的大选,你可以看出她是个赢家」或「他在学术这条路上走不远,他有太多的刺青」时会自动参与工作。当我们依下巴的形状或演讲时强有力的措词来判断一个候选人的领导力时,便是用到表征捷径。
虽然用表征来预测的做法很普遍,却不是统计学上最好的方式。路易士 (Michael Lewis) 的畅销书《魔球》(Moneyball) 就是在讲这种预测模式的没有效率。传统上,职业棒球队和球探是用球员的体格和面貌来预测他以后会不会成功。路易士书中的英雄比利毕恩 (Billy Beane) 是奥克兰运动家队的经理,他做了一个不受欢迎的决定──驳回球探找来的球员,而用球员过去表现的统计数据来选新球员。运动家队所挑选的球员都不贵,因为他们多是别人挑剩的,但是他们很快就打出漂亮成绩来。
表征的罪恶
用表征来判断机率有个重要的好处──直觉印象通常比凭运气猜测来得准确。
- 在大多数情况下,表现友善的人事实上的确比较友善。
- 又高又瘦的职业运动员比较可能是篮球员,而比较不会是足球员。
- 有博士学位的人,比高中毕业就不再接受教育的人更有可能订阅《纽约时报》。
- 年轻人比老婆婆开车勇猛。
在上面例子中(以及无数的其他例子),这些典型都具部分真实性,可以用表征去做判断,这个捷径预测出来的也很可能正确。在其他情境中,这个典型是假的,那么表征捷径就会误导了,尤其是当它使人们忽略基率的讯息,而基率又指向另一个预测方向的话。即使捷径有一定的效度,完全依赖捷径会违反统计的逻辑,是很严重的「罪」。
表征的头一条「罪」是过度偏好预测一个不太可能发生(即基率很低)的事件会发生。下面就是一个例子:你看到一个人在纽约地铁上看《纽约时报》,下面何者最符合这个人的情况?
她有博士学位。
她没有上大学。
表征会告诉你选博士学位,但这不一定是明智的选择。你应该认真考虑第二个可能性,因为在纽约坐地铁的,大学没毕业的比博士多。假如你必须猜测一个「害羞又爱诗」的女性读的是中国文学或是企业管理的话,你应该猜企业管理。即使每一个读中文的女生都很害羞而且喜欢诗,你还是要猜企业管理,因为即使在企业管理系中,害羞又爱诗的女生还是比中文系学生多。
没有受过统计训练的人一样可以用基率做预测。在汤姆的第一个版本中(即没有提供你任何有关汤姆讯息),每个人都知道,判断汤姆念哪个领域,完全看该领域注册学生有多少。然而,当对汤姆个性的描述一出现,基率马上被抛到九霄云外。
特维斯基跟我一开始时,根据早期的证据认为基率的讯息在某个特殊讯息存在时,一定会被忽略掉,但是这个结论太过绝对。心理学家做了很多特意提供基率的实验,果然,受训者有考虑到基率,虽然关于个人的资讯比重还是比统计数据多,但至少基率发挥了影响作用。施华兹和他的同事在实验中告诉受试者,假想自己是统计学家并用统计学家的方式思考,就能加强受试者利用统计基率的讯息。但是假如他们指示学生「假装你是临床医生,用临床医生的方式去思考」就会出现相反的结果。
几年前,有一个针对哈佛大学生的实验,结果令我惊讶:加强活化系统二会使汤姆问题的正确率提升。这个实验把原本的问题与认知流畅的修正版本结合在一起。要求一半受试者在做作业时把脸颊鼓起来,另外一半受试者则皱眉头。我们前面已经看到,皱眉头会增加系统二的警戒心,减少过度自信及对直觉的依赖。那些吹气把脸颊鼓起来的受试者(这是情绪的表示)完全依赖表征而忽略基率,而皱眉头的受试者的确有显露出他们对基率的敏感,这些都符合实验者的预期。这是一个非常有启发性的发现。
当一个错误的直觉判断发生时,系统一和系统二应该都脱不了关系。系统一建议了不对的直觉,系统二还为它背书,把这判断运用在决策上。不过,系统二的失败有两个原因:无知或懒惰。有些人忽略基率,因为他们认为在个人基率资讯与问题无关的情况下,也有人因注意力不在作业上而犯同样的错。假如皱眉会造成差异,懒惰似乎就是忽略基率的合理解释了,至少对哈佛大学生是如此。他们的系统二「知道」基率是有关的,即使没有特别强调基率,但是,只有当受试者特别花力气在这作业上时,才会把基率的知识应用在问题中。
表征的第二个罪是对证据的品质不敏感。记得系统一的WYSIATI规则。在汤姆的例子中,活化联结机制的是对汤姆的描述,而这不一定是正确的描述。「汤姆对人很冷淡,也没有什么同情心。」可能就够说服你(和大多数读者),他不太可能是社会学或社会工作领域的研究生。但是你已特别被告知,不可相信这个描述!
你当然了解原则上,没有价值的资讯跟完全没有任何资讯是相同的,但是WYSIATI使你很难应用那个原则,除非你立刻决定拒绝这个证据(例如,你知道散播这个讯息的人是个骗子),你的系统一会自动处理这个讯息,就好像它是真的一样。当你怀疑证据品质时,你可以做一件事:让你的机率判断往基率那边靠。不要期待这种纪律练习很容易──它需要付出相当力气来做自我监控和自我控制。
对汤姆这个问题的正确答案是你应该紧跟着你先前的信念,稍微减低一点一开始人口密集领域的高机率(人文和教育,社会科学和社会工作)。稍微提高一点很少人念的领域(如图书馆系、电脑系)的机率,你不会跟假如你完全不知道汤姆的任何事情时情况一样,但是你手边的一点证据又不可信赖,所以基率应该主控你的统计。
如何管教直觉
你认为明天会下雨的机率是你信念的主观程度,但是,你不该相信任何进入心中的想法。为了要实用,信念应该被机率的逻辑所规范,所以,假如你相信明天有40%的机会下雨,就必须相信明天不下雨的机会有60%;你就不能相信明天早上有50%的机会下雨。假如你认为X候选人有30%的机会当选总统,有80%的机会连任(假如他第一次便选上的话),那么你得相信他赢得连任的机率是24%。
像汤姆这类问题的相关「规则」(rule) 是来自贝氏统计 (Bayesian statistics)。这个近代非常有影响力的统计法是因十八世纪英国牧师贝叶斯 (Thomas Bayes) 而得名的。他最大的贡献是找出人们在看到证据后,如何改变心意背后的逻辑。贝氏推理指出先前的信念(以本章的例子来说,就是基率)应该跟证据的诊断结合,来看偏向你的假设而拒绝另一可能假设的程度。例如,假如你相信有3%的学生是电脑系的学生(这是基率),你也相信,依据对汤姆的描述,他是电脑系学生的机率比他是别系学生的机率高四倍。那么贝氏推理认为,你应该相信汤姆是电脑系的机率是11%。假如基率是80%,新的信念机率就是94.1%。
数学的细节跟本书无关,关于贝氏推理以及我们如何倾向犯错,有两件事要记在心头。第一就是基率很重要,即使你手边有这个个案的证据,基率还是很重要。这一点在直觉上通常不是很显著。第二点就是诊断性证据给人的直觉印象常常是夸大的。WYSIATI跟联结连贯性的结合,会使我们相信自己编织的故事。贝氏推理最重要的关键可简述如下:
- 把你机率判断的锚点下在一个最有可能的基率上。
- 质疑你对证据的诊断。
这两个想法都很直截了当,当我发现我从来没有学过如何应用它时,我真是非常震惊,直到现在,我仍然觉得自己做得很不自然。
说到表征
「草地修剪得很漂亮,接待员看起来很能干,家具很吸引人,但这并不表示这是一家经营良好的公司,我希望董事们不会依表征来做决定。」
「这家新创公司看起来好像不会倒,但是这个产业的成功基率很低,我们怎么知道这家公司跟别家不同?」
「他们一直在犯同样的错误:从很不充分的证据来预测罕见的事件。当证据薄弱时,我们应该依基率来做判断。」
「我知道这个报告真是糟透了,它可能是根据可靠的证据写的,但是我们有多确定?我们一定要在思考中保留一些怀疑。」
15 琳达:少就是多
在我们的实验中,最著名也最具争议性的是一个名叫琳达的虚构女子。特维斯基和我创造出琳达来,想为捷径在判断上所扮演的角色,以及它和逻辑的不相容性,提供一些确定性证据[1] (conclusive evidences)。下面是我们对琳达的描述:
琳达是个三十一岁、未婚、有话直说的聪明女性。她主修哲学,在学生时代非常关心歧视和社会公义的问题,也参与过反核游行。
在八○年代听到这段描述的人会立刻笑起来,因为他们马上就知道琳达读的是加州大学柏克莱分校,因为那时的柏克莱是激进派、自由派学生的大本营。在一项实验中,我们给受试者看琳达的八个可能场景,请他们排序,有的依我们给的琳达表征,有的依机率。琳达问题跟汤姆问题很相似,但是有一点不同。
琳达是小学老师。
琳达在书店工作,也上瑜伽课。
琳达是女性主义的拥护者。
琳达是精神病方面的社会工作者。
琳达是妇女投票联盟成员。
琳达是银行行员。
琳达是保险公司业务员。
琳达是银行行员也活跃于妇女运动。
这个问题在很多方面显现出年代的讯息。妇女投票联盟的地位已不像从前那么重要了,而妇女「运动」(movement) 听起来怪怪的,因为那是三十年前开始争取的妇女自主权、社会地位的运动。即使在脸书时代,你还是很容易猜出近乎完美的判断:琳达非常符合一个活跃的女性主义者的形象,也很符合在书店工作且上瑜伽课的人,但是非常不符合银行行员或保险公司业务员的形象。
现在请注意这个单子上的关键项目:琳达比较可能是银行行员,还是活跃于女权运动的银行行员?每个人都同意,琳达符合支持女性主义的银行行员的程度,大于「银行行员」。大家对银行行员的刻板印象不是女性主义的活跃份子,加上这个细节使故事更合理。
它跟汤姆故事不同处,在机率的判断上,因为这两个故事有逻辑上的相关性。请用维恩图[2] (Venn diagram) 来想。支持女性主义的银行行员的圆圈是完全被包含在银行行员的大圆圈中,因为每一位支持女性主义的银行行员都是银行行员,所以琳达是女性主义银行行员的机率,一定比她仅仅是银行行员的机率低。当你愈详细描绘特点,就愈降低了这个新特点的机率。这个问题是特意设定了表征直觉与机率逻辑两者之间的冲突。
我们最初的实验采「受试者组间设计」(between-subjects)。每位受试者都看一组有七个句子、包括一个关键句(银行行员或女性主义银行行员)的单子。有的人依琳达跟银行业刻板印象的相似度来排序,有的人依机率来排序。就像汤姆的实验结果一样,用表征和用机率的排序结果都一样,女性主义银行行员的排序比单纯银行行员高。
然后我们进一步用「受试者组内设计」(within-subject) 深入研究。我们编写问卷,把银行行员列在第六,把女性主义银行行员列在最后。我们相信受试者看得出这两个句子之间的关系,他们的排序应该可以符合逻辑。事实上,我们确信一定会如此,完全没有想到应该再做一个专门的实验来证实。我的助理在实验室中做另外一个实验,她请受试者在领车马费之前,先把新的琳达问卷填完。
在我不经意看到这些问卷之前,大约已有十份已填好摆在她桌上了。我发现所有受试者都把女性主义的银行行员排在银行行员之前,我感到非常震惊,直到现在,当时的「镁光灯记忆」(flashbulb memory) 仍历历在目:灰色的金属书桌和每个人站的位置。我马上打电话给特维斯基,很兴奋地告诉他这个新发现:我们成功地让逻辑和表征对立起来,而表征赢了!
用本书的语言来说,系统二失败了:受试者有公平的机会察觉逻辑规则的相关性,因为两个结果都包含在同样的问卷中,但是受试者没有利用这个机会。当我们扩大延续这个实验时,我们发现受试者中,有89%的大学生违反了机率的逻辑。我们认为,受过严谨统计训练的受试者应该会表现得好一点,所以我们把这份问卷拿去给史丹佛大学商学院企管所专攻决策科学的博士班研究生做,这些学生全都上过好几门进阶的机率统计和决策理论。我们再一次得到非常令人惊讶的结果:85%的博士生也把「女性主义银行行员」排在「银行行员」前面!
为了消除这个错误(我们把它叫做「持续加强的绝望」),我们让一大群人做琳达这个问题,只问下面这几简单问题:
下面哪一个比较可能?
琳达是银行行员。
琳达是银行行员,也是活跃的女性主义运动者。
这个明显对照版的问题使琳达在某些领域声名大噪,让我们许多年来都处在争议中。大约有85%-90%的重点大学学生选择第二项,违反了逻辑。奇怪的是,似乎没有人觉得羞耻。当我问我自己教的大学部大班课学生:你们知道自己违反了基本的逻辑规则吗?有些坐在后排的学生喊道:「那又怎样?」有一个犯了同样错的研究生说,「我以为你只是问我个人的意见。」
一般来说,「谬论」(fallacy) 是指人们没有应用有显著相关的逻辑原则。特维斯基和我引介了「连接的谬论」(conjunction fallacy) 这个新想法,即人们认为两个事件(银行行员和女性主义者)联合出现比单独出现的可能性更大。
就像在慕勒-赖尔的错觉中,即使你已了解这个谬论是怎么一回事,它仍然非常具吸引力。自然学家史帝文.杰.古尔德 (Stephen Jay Gould) 描述他自己对琳达问题的挣扎。他当然知道正确答案是什么,是的,他还是写了「有个小精灵在我脑中跳上跳下,喊道:但是她不可能只是银行行员,去读关于她的描述就知道了。」这个小精灵当然就是古尔德的系统一在坚持己见(他写这段话时,两个系统的专有名词还没有发明出来)。
在简短版琳达问题的研究中,只有一个研究中的大部分受试者知道正确答案:64%的史丹佛大学和柏克莱大学社会科学研究生正确判断出「女性主义的银行行员」机率比「银行行员」低。在原始版的八个结果中:同一组研究生却只有15%选对了。这个差别立刻让我们想探究原因:在八个句子的版本中,两个关键句中间夹了一个「她是保险公司业务员」的机率,所以受试者是独立判断每个句子,并没有把各句拿来比较;而在简短版中,非常清楚看出需要做比较,这就动用到系统二,使得大部分统计好的研究生避开了这个陷阱。可惜的是,我们没有探究那些答错的36%的博士班研究生,他们的推论哪里出错了。
汤姆和琳达的这两个机率判断的研究,都是要受试者做表征(跟刻板印象的相似性)的判断。表征属于一群有紧密关系的基本属性,想到一个属性常常会顺便把相关属性一串都带出来。大部分的表征讯息都能与人格特质结合,使故事有完整性、连贯性。但是最完整而合理的故事不一定是最可能 (probable) 发生的,也可能似是而非 (plausible)。所以,一致性、可能性和机率的看法和观念很容易使我们混淆。
如果我们把场景或描述拿来做为预测工具时,轻率地用似是而非的判断去替代机率,会严重影响我们的判断。请思考下面两个场景,实验者请两组受试者评估机率:
明年北美洲会有水灾,超过1千人会丧命。
明年加州会有大地震,并引发水灾,导致1千多人丧命。
加州地震的场景比北美洲发生水灾看起来比较可能发生,虽然机率还是很低。如我们所预期的,场景描述得愈详细、资讯愈丰富,机率的判断愈高,这一点跟逻辑正好相反。这是预测者和其委托者设下的陷阱:增加场景细节的描述,使它们看起来较有可能性,却更不可能是真的。
要了解似是而非的作用,请看下面的问题:
下面哪一个选项的可能性较高?
马克有头发。
马克有头金发。
以及,
下面哪一个选项的可能性较高?
珍是个老师。
珍是个老师,而且走路去上班。
这两个问题跟琳达问题一样,有着同样的逻辑结构,但是不会引起谬误,因为更多细节只是描述得更详细些,它们不是更似真或更合理,更有一致性或是更有故事性。评估似是而非和合理性并不能有助于回答机率问题。在缺乏直觉的竞争下,逻辑就能胜出了。
少就是多,甚至在联合评估时
芝加哥大学教授奚恺元 (Christopher Hsee) 请受试者替当地商店出清的一套餐具标价,餐具一套通常在30美元到60美元之间,实验中有三组受试者,下面是一组受试者所看到的展示。奚教授把它定名为「联合评价」(joint evaluation),因为受试者可以同时比较两套餐具。另外两组是「单独评价」(single evaluation),受试者只有看到两组中的一组。联合评价是受试者组内设计,而单独评价则是受试者组间设计。

假设这两组餐具的品质都一样,哪一组的价值比较高?这个问题很简单,因为A组中包含了B组所有的盘子,还多了七件,所以A组的价格一定比较高。的确,受试者愿意付多一点钱买A组:A组标价为32美元、B组标价为30美元。
但是这个结果在单独评估时,便反过来了。他们给B组的标价33美元高于A组23美元。我们知道为什么会出现这样的结果。当受试者看到这些餐具时,你可以马上感觉到A组的平均价格低于B组,因为没有人愿意买破盘子,假如平均价格主控我们怎么评估价值,你就不会惊奇B组的定价高。奚教授把此现象称为「少就是多」(less is more)。如果把A组16个盘子拿掉(里面有七个是没破的),它们价值就增加了。
奚教授的实验结果被实验经济学家李斯特 (John List) 用拍卖棒球卡的方式证实了。他拍卖一套十张高价值的棒球卡,另一套则是同样这十张棒球卡外加三张比较不值钱的卡片。就像餐盘实验一样,联合评价时,十三张一套的比十张那套的价格高;若是单独评价时,十张的价格反而高。从经济理论的观点来看,这个结果很令人困扰:一套餐盘的价值或一套棒球卡的价值当然是增添正向价值的东西愈多,价钱愈高,为何反其道而行呢?
琳达问题和餐具问题都有相同的结构。就像经济价值一样,机率应该是总数的变数,如下面的说明:
(琳达是行员的)机率=(琳达是女性主义银行行员的)机率+(琳达是非女性主义银行行员的)机率
这也是为什么奚教授的餐具实验和琳达问题的单独评价,会产生少就是多的现象。系统一会取平均值而不是加总,所以当把非女性主义者的银行行员移开时,主观机率就增加了。然而,在棒球卡或餐盘的例子中,它的机率比较不像金钱那么显著,所以,在奚教授的实验中,联合评估得以去除这个错误,但是在琳达问题的实验中却没有。
琳达问题不是联合评估中唯一的组合错误。我们在很多其他判断中也发现同样违反逻辑的现象。有一个实验是请受试者替下一届温布顿网球公开赛的四个可能结果排序。当时的球王是伯格 (Bjorn Borg)。四种可能的结果为:
A.伯格赢得比赛。
B.伯格输掉第一盘。
C.伯格会输掉第一盘,但会赢得比赛。
D.伯格会赢第一盘,但是会输掉比赛。
这里面的关键是B和C,B可以包含最大的可能性,机率应该比其他选项大。但是72%的受试者把B排得比C低,违反了逻辑,但是跟表征相符。这又是透过直接比较,得出少就是多的另一例。这一次受试者选出可能性最大的描述,无疑地更为合理,符合世界上顶尖网球选手的印象。
为了要避免有人抗议说连接谬论是因为错误解释机率的关系,我们建构了一个需要做出机率判断的问题,但这个事件不是用文字描述,而且「机率」这个词完全没有出现过。我们告诉受试者有一个四面绿色、两面红色的骰子,投掷20次。我们给他们看由三个绿 (G) 和三个红 (R) 组合的序列,请他们选一种。假如他们选的序列出现了,就赢得25美元。这些序列为:
- RGRRR
- GRGRRR
- GRRRRR
因为这个骰子的绿面是红面的两倍,所以1的序列有点不具代表性,就像琳达是银行行员一样,有点不太可能。第二个序列比较符合我们对这个骰子的预期,因为它包含了两个G,这个序列不过是在第一个序列前面加了G而已,所以它只比第一个机率多一点。这相当於琳达是女性主义的银行行员,只是它用符号表达而不是文字叙述。就像琳达的研究,表征主控了结果。三分之二的受试者选2而不选1。给他们看支持两种选择的论点时,绝大部分的人又觉得1比较有道理。

左边这组受试者的错误率是65%,右边这组受试者的错误率是25%。
为什么「这100人中,有多少……」比「有百分之多少……」的问题容易?一个可能性的解释是,当提到100人时,它把空间的表征带入心中。请想像你叫很多人自己去分组,名字开头字母A到L的集中到房间左边,然后再细分。这个内含的关系现在很明显了,你可以看到名字是C开头的人在房间左边的角落。在这项医学调查问题中,心脏病患者待在房间角落,而角落中有些人还不到55岁。但并不是每个人都能想像出这个鲜明的场景,但是许多后来的实验显示,我们所熟知的频率代表性,使人们比较容易理解一个团体是否包含在另一个团体里。右边问题问的方式是「有多少」,这使你想到个人;但问你「有多少百分比」时你就不会有这种联想,差别就出来了。
我们从这些研究中学到系统二的什么特质呢?有一个新的结论是,系统二不像以前想像的那么警觉。参加连接谬论实验的大学生和研究生都「知道」维恩图,但是他们都没有使用它,甚至所有相关讯息都摆在眼前时,还是没去用。「少就是多」的不合理行为在奚教授的餐具实验中很明显地看出,在「有多少」的表征中也很容易辨认出来,但是它对几千个在琳达问题或类似问题中犯下连接谬论错误的人却不显著。在这些问题中,连接谬论看起来似真,就足以让系统二替它背书了。
系统二的懒惰也是导致连接谬论的部分原因,假如受试者答错就不准去度假,假如他们有足够的时间,假如要求他们依逻辑思考,除非很确定才可以回答的话,我相信大部分受试者可以避开连接谬论。然而,他们的度假并不取决于正确的答案,他们也花非常少的时间在做这个作业上,而且非常满足自己给的答案,好像问题只是「你的意见如何?」没有把回答当作严肃的事。系统二的懒惰是生活中一个重要的事实,而表征可以阻挡相当显著的逻辑规则是一件有趣的事。
琳达研究最特别的地方是它和餐具评价研究的对比性。这两个研究都有相同的结构,但是得到不同的结果。给破盘子那一组餐具很低价钱的人,他们的行为反映出直觉的原则。但是看到A、B两组餐具的人马上应用逻辑推理,认为愈多盘子只会增加价值。直觉在受试者组间设计主导了判断,逻辑在联合评价时占了上风。在琳达研究中则相反,直觉通常推翻逻辑的决定,甚至在联合评价的时候。
特维斯基跟我都觉得,研究中发现明显违反机率逻辑的情况很有趣,值得向同侪报告。我们也认为实验结果强化了我们对判断捷径的论点,可以用来说服不相信有这个捷径的人。关于这一点,我们错了,琳达研究反而变成争议的范例。
琳达研究吸引了很多人的注意,也引来很多对我们在判断研究方法上的批评。我们和其他的研究者都发现,结合指示与暗示可以减低谬论的产生。有些人认为在琳达的故事中,受试者把「机率」(probability) 误以为是「似真、似合理」(plausibility) 是合理的行为。这些论点有时扩大演变到认为我们整个研究都是在误导大家:假如一个鲜明的认知错觉可以被减弱或解释清楚,其他的系统功能也可以。这种推理忽略了连接谬论的一个特质:它是直觉和逻辑的冲突。我们从受试者组间设计(包括琳达研究)所建构起来的捷径证据,并没有受到质疑,只是没有讨论到,而它的鲜明性被减弱,因为批评者火力集中到连接谬论。琳达研究的「净效果」(net effect) 是增加我们研究的曝光率,使大众知道我们在做什么,对我们研究取向的批评当然对我们的可信度也小有伤害,这是我们在做实验初期未料及的。
假如你参观过法院,你会看到律师用两种方式批评:一个是推翻这个案子,他们强烈打击支持这个案子的证据,彻底破坏证人的信用,专注找出证词的最弱点,集中火力,强烈进攻,这也是政治上常见的手腕,但是我不认为在科学争议上应该用这种方式。但是我后来接受它是生活中的事实,社会科学领域的学者无法避免政治型态的追杀,尤其是议题很重大的时候──人类在判断上,普遍有偏见,就是个重大的议题。
不久前,我与琳达研究主要的批评者赫威格 (Ralph Hertwig) 有一段友善的谈话。我问他,为什么他和其他人特别针对连接谬论抨击,而忽视其他能支持我们立场的有力证据。他微笑着说:「这样比较有趣。」他接着说,琳达研究吸引了这么多的注意,我们没有什么可抱怨的[3]。
说到少就是多
「他们建构了一个非常复杂的场景,坚持说它有高可能性 (highly probable)。它不是一个看似真的故事而已。」
「他们在很贵的产品上,搭配了一个很便宜的礼物,使得整个交易不吸引人,在这里,少就是多。」
「在大多数情况下,直接的比较会使人们更小心、也较有逻辑性,但是不常如此。有时,直觉会打败逻辑,即使正确答案就在你面前,瞪着你看,你还是会犯错。」
16 因果基率胜过统计基率
请看下面的场景,注意你的直觉对问题的回答:
一辆计程车在晚上发生了一件撞车逃逸事件,这城里有两家计程车行,它们的计程车分别为绿色和蓝色。你现在有下面的资料:
- 这城中,85%的计程车是绿色的,15%是蓝色的。
- 目击证人说,他看到肇事计程车是蓝色的,法庭检验证人在意外发生当晚的照明度下,能否看得清楚,结果发现证人可以正确指认出颜色的机率是80%,错误的机率是20%。
请问肇事车辆是蓝色计程车的机率有多少?
这是一个标准的贝氏推论问题,你有两项资讯:基率和不完美的证词。在没有证人的情况下,蓝色计程车肇祸机率是15%,也就是它的基率;假如两家计程车行一样大,那么这个基率就无法提供讯息,你只能考虑证人的证词,下结论说机率是80%。这两项资讯可以依贝氏推论组合起来,得出正确的机率是41%。然而你可能会猜到人们面对这个问题时会怎么做:他们会忽略基率,采信目击证人的话,最普遍的答案是80%。
刻板印象
下面请看同样故事的不同版本,里面只有基率的百分比被改变了。
你得到下面这些资讯:
- 两家公司拥有相同数量的计程车,但是绿车的肇事率是85%。
- 证人的讯息跟之前一样。
这两个版本在数学上是一样的,但是从心理上来看却不一样。读第一个版本的人不知如何应用基率,常常会忽略它。相反的,看第二版本的人相当注重基率,他们的平均判断与贝氏统计的答案差距不远,为什么?
在第一个版本里,蓝色计程车的基率是关于城里有多少计程车的统计事实。心智渴望着找出因果关系的故事,却发现没有东西可以编故事。城市中的蓝色和绿色计程车数量跟计程车肇事逃逸有什么关系?你完全没有资料可以编故事。
在第二个版本里,绿色计程车的司机比蓝色计程车的司机多了五倍以上的出事率,你马上可以下结论:绿色计程车司机一定是肇事逃逸的司机。你现在在脑海中形成了绿色计程车司机是鲁莽的疯子的刻板印象,并延伸到绿色计程车公司中不同人身上。这个刻板印象是很容易符合因果关系的故事,因为开车不小心是个因果相关的事实。在这个版本里,有两个因果相关的故事需要组合起来,第一是肇事逃逸,这当然会引发绿色计程车司机开车不小心的印象。第二是证人的证词,证人说司机是开蓝色计程车。这两个讯息对于车子颜色的描述是矛盾的,很可能相互抵销掉了。两种颜色计程车的肇事机率是一样的(贝氏估计为41%,反映出绿色计程车基率比证人的证词可信度高一点)。
计程车的例子说明了两种基率。统计基率指出事实──城里有多少计程车,但是跟个案无关。因果基率会改变你对个案的看法,这两种基率的讯息是受到不同待遇的。
- 统计基率通常被低估,当人们有该个案的特定讯息时,统计基率有时会整个被忽略。
- 因果基率被当作个案的讯息,人们很容易把因果基率跟其他和个案相关的讯息结合。
有因果关系的计程车版本在你脑海中形成了刻板印象:绿色计程车司机是危险的,刻板印象是指团体中每一份子给人的共同印象。下面有两个例子:
这个城市中心高中的毕业生,大部分都上了大学。
法国人普遍爱骑自行车。
这两句话立刻解释了这两个团体中每个人的倾向,他们很符合因果故事。在这特定城市中心的高中毕业生渴望、而且能够上大学,很可能是学校有一些对生活有益的特点[1]。法国特殊的文化和社会生活使很多法国人都喜欢骑脚踏车。当你想到某一个该校毕业生上大学时;或是当你考虑跟刚认识的法国人谈你去法国的游历时,你会想起上面这些事实。
在我们的文化中,刻板印象是一个不好的字眼,但是在本书中,我的用法是中性的。系统一的基本特性之一,就是它代表了常模和原型的类型,就像我们想到马、冰箱和纽约警察时,脑海中浮出该类型中的「正常」代表。当这个类别具社会性时,它就代表了所谓的「刻板印象」。有些刻板印象非常不对,有敌意的刻板印象甚至会带来可怕的后果。但是刻板印象在心理学上的事实却是无法避免的:不论是对是错,刻板印象都是我们对各类事物的看法。
你可能注意到讽刺之处,在计程车的问题中,忽略基率讯息是认知上的瑕疵,没有做贝氏推理,以及想要依赖因果基率。对绿色计程车司机的刻板印象增加了判断正确率。然而,在其他情境下(如雇用或个人描述),社会常模跟刻板印象强烈不符,在法律中也常有这种现象。事实就是如此。我们不应该以刻板印象来评估一个人。在敏感的社会情境中,我们不该只因这团体在统计上的数据,对团体中的个人做出错误结论;我们应该把基率当作这个团体的统计事实,而不是当作个人的假设事实。换句话说,我们应该拒绝因果基率。
社会常模反对刻板印象,包括反对人格剖面图 (profile),对创造更文明、更平等的社会很有帮助。然而,我们也需记住,忽略有效度的刻板印象不可避免地会导致不够理想的判断。抵抗刻板印象是值得称赞的美德,但是误以为这种抵抗不需付出代价也是错误的。为达到一个更好的社会,这代价是值得的,但是否认这个代价的存在,以满足政治正确和心灵正确的要求是不智的,在科学上也无法立足。政治的辩论常常充满了情意捷径,我们所赞同的立场是没有代价,那些我们所反对的也没有获益,我们应该可以做得更好。
因果的情境
特维斯基和我建构了各种计程车问题,但并没有发明强有力的因果基率概念,我们是从心理学家亚增 (Icek Ajzen) 那里借来的。亚增的实验给受试者看一则描述一位在耶鲁大学考试的学生的简短故事,然后请受试者判断这个学生通过考试的机率。亚增对因果基率的操弄很直接,他告诉受试者,这个学生是从75%通过考试的班级抽样的;告诉另外一组受试者,这学生来自通过率只有25%的班级。这是一个非常强有力的操弄,因为通过基率马上让人推论只有25%通过的考试一定很难,而考试很难是学生考得好不好的因素。如我们所预期的,亚增的受试者对因果基率非常敏感,在高通过率的情境下,受试者预估的每个学生通过率,都高于在低通过率的情境下的预测值。
然后,亚增用了一个非常聪明的方法建议了一个非因果基率。他告诉受试者,刚刚看到的那个学生是从已知考试结果的样本群中抽样,但样本群中的学生有的通过考试,有的没有通过。例如,他给受试者看的高失败率组的讯息是:
研究者想知道,为什么学生没有通过考试。所以他建构了一个75%的人没有通过考试的样本群。
请注意其中的差别。这个基率是统计事实,告诉你有75%是考试失败者。结果,这个特别指出的基率讯息对判断产生了影响,但是相对于统计上的因果基率的影响力小。系统一可以处理因果相关的事件,但是在统计推理上很弱,对一个贝氏定理的思考者来说,这两个表达方式是相同的,我们很容易以为自己得到了满意的结论:我们使用了因果基率,只不过把统计事实(多多少少)给忽略了。下面这个实验是我一直以来最喜欢的,它让你看到这个情境其实相当复杂。
心理学可以教吗?
开车鲁莽的计程车司机和难度高的考试,说明了两个从因果基率得出的推论:一是我们容易赋予个人刻板印象,二是情境显著特质会影响个人的思考结果。受试者在这些实验中都做了正确的推论,他们的判断都进步了。很不幸的是,事情永远不可能尽如人意。下面要描述的古典实验会让你看到,人们不会从基率提取与他们的其他信念相抵触的讯息;同时也支持了一个令人相当不舒服的结论:教心理学是白费时间和精力的!
这个实验是社会心理家奈斯比 (Richard Nisbett) 和他的学生波吉达 (Eugene Borgida) 很早以前在密西根大学做的。他们告诉学生一个纽约大学好几年前所做的很有名的「帮助实验」(helping experiment)。在这个实验中,受试者被带到单独的小房间中,请他透过对讲机回答私人的生活和所遇到的问题。每个人轮流讲约两分钟,但是每次只有一个麦克风是开的。每一组有6个受试者,其中有一个是假冒的。这位假受试者第一个讲,根据实验者所设计的对话来念,他先说他很难适应纽约的生活,然后很不好意思地承认自己患有癫痫,尤其在紧张时会发作。其他5个人也轮流讲自己的情形,当麦克风又回到第一次说话的假受试者时,他表现出激动、语无伦次的样子,然后说,他感觉到癫痫快要发作了,请别人赶快来帮他。最后一句话是:「有没有……人……能……救救……我……(呼吸不过来的声音)我……我……快要……死了(呼吸不过来,然后,没有声音了)」(C-could somebody er-er-help-er-uh-uh-uh……I…I'm gonna die-er-er-er I'm… gonna die-er-er-I seizure I-er)。这时,下一个人的麦克风自动开了,而那个可能快死掉的受试者再也没有发出任何声音。
你认为实验中的其他受试者会怎么做?到目前为止,其他受试者知道有一个受试者癫痫发作并且请求帮助。然而,大家都觉得有好几个人可以帮忙,或许不必所有人都出动,只要有人去帮忙就行了,其他人可以留在小房间中按兵不动。结果是:15个受试者中,只有4人立即冲出去对请求立刻回应。有6人不动如山,5人在癫痫发作者已经不能呼吸、无声了,才出房间来看。这个实验显示,当个体知道有别人在场,别人也有听到呼救声时,会觉得自己对这件事没有责任。
结果令人惊讶吗?很可能,大部分人都认为自己是好人,在这种情况下会冲出去帮助别人,我们也期待别人会这么做。这个实验的目的当然就是告诉我们这样的预期是错的。即使是正常的好人,假如他们知道有人会去处理不是很愉快的癫痫情况时,是不会冲出去帮忙的。其实你也是一样。
你愿意赞同下面这段话吗?「当我读了帮助实验的历程后,我认为我会马上去帮助那个陌生人,就像我是单独一个人面对癫痫发作的病人一样。然而,我有可能错了。假如我发觉我所处的环境中有其他人可以帮忙,我可能就不会趋前帮忙了。别人在场会减低我的责任感,比我起初以为的还低。」这是心理学老师希望你学到的。你会对自己做出同样的推论吗?
描述这个帮助实验的心理学教授,希望学生把这个低基率视作因果基率,就像耶鲁那场考试,他要学生推论极高的不通过率(暗示测验很难)。学生要学得的教训是,有些很强的情境特质(如责任的分散)会使正常的好人(如他们自己)做出令人惊异的自私行为来。
改变人们对人性的看法是很困难的事;改变自己对自己的看法,尤其是认为自己比想像中更糟,则更加困难。奈斯比和波吉达怀疑,学生很可能会抵制这个作业和它代表的不愉快感觉。当然,学生有能力、也愿意在测验中说出「帮助实验」的细节,甚至可以重述「官方」的责任分散说词,但是他们对于人性的信念真的改变了吗?为了知道这一点,奈斯比和波吉达给受试者看一段简短的访谈影片,受访者是两位参加过纽约实验的人。这两个人看起来都像正常的好人,他们描述自己的嗜好、休闲活动,和未来的计划,一切都跟大部分人差不多。在看完影片后,学生要去猜测这两个人有多快赶到陌生人旁边帮助他。
如果用贝氏推理处理这个问题,你应该先问自己,假如你没有看到那段访谈影片,你会怎么猜。这个问题需要参考基率。我们前面讲过,15个人中,只有4个人立刻冲去帮忙,所以某人立即去帮忙的机率是27%。所以你原先的信念应该是他们没有前去帮忙。接下来,贝氏逻辑要你依任何相关资讯调整你的判断。然而,这段影片刻意设计不提供任何资讯,拍摄者很小心地使影片没有提供你任何理由去怀疑这两人有比随机取样的学生更愿意或更不愿意伸出援手。所以在没有新资讯的情况下,贝氏推论的标准答案是根据基率。
奈斯比和波吉达请两组学生去看影片,然后预测这两个人的行为。第一组受试者只有被告知帮助实验的程序,不知道它的结果,他们的预测反映出他们对人性的看法和对情境的了解。如你可能预期的,他们认为这两个人会马上冲出去帮忙。第二组受试者则知道实验的过程,也知道结果。这两组的比较就对一个重要问题提出了答案:学生有从「帮助实验」的结果中学到任何改变想法的东西吗?答案很直接:他们什么都没学到。他们对这两个人的预测跟第一组一样。他们知道这两个人来自什么团体,也知道这个团体的基率,但是还是相信影片中的那两个人会马上冲出去救生病的陌生人。
对心理学的老师来说,这个实验的结果很令人沮丧,当我们教学生有关人们在「帮助实验」中的行为时,我们预期他们会学到一些过去不知道的东西,并希望改变他们对某个特定情境中人们行为的看法。这个目标在奈斯比和波吉达的实验中没有达到。我们没有任何理由相信,假如他们选另一个令人惊讶的心理学实验,结果会不一样。的确,奈斯比和波吉达在教学生另一个实验时,也得到类似的结果。这个实验是在轻微的社会压力下,会让人们能承受比较痛苦的电击,而且比大多数人(包括他们自己)预期的大。尚未发展出社会情境压力敏感度的学生,从这实验中什么都没有学到。他们对陌生人或自己行为的预测,表示他们并没有改变原本的看法。奈斯比和波吉达说,学生「默默地把自己(还有他们的朋友)从实验结果中排除掉」。各位心理学老师不要绝望,因为奈斯比和波吉达想出一个能使学生了解到「帮助实验」意义的方式。他们找了一组新的受试者,教他们实验的流程,但是没有提到实验结果。他们给受试者看两段影片,直接告诉他们这两个人并没有帮助陌生人,然后请他们猜测「帮助实验」结果。非常戏剧化的是:学生的猜测非常准确。
要教学生任何他们以前不知道的心理学知识,你必须令他们感到惊奇。但是怎样的惊奇才有用呢?奈斯比和波吉达发现,当他们给学生看一个令人惊奇的统计事实时,学生什么都没学到。但是当他们给学生看一个令人惊奇的个案时──两个看起来很好的人并没有伸出援手──他们立即类化到自己身上,并且了解帮助别人比自己想像中还困难。奈斯比和波吉达用下面这句令我印象深刻的话做了结论:
受试者不愿从常态推演出特殊事件,这点就与他们愿意从特定事件推论出常态如出一辙。
这是一个非常重要的结论,被告知关于人类令人惊讶的统计事实,人们可能会对数据印象深刻,进而告诉朋友他听到了什么,但这并不表示他们的世界观真的改变了。学习心理学的考验是,你是否了解你所面对的情境已经改变,而不是你是否学到新的事实。我们对统计数据和个案的想法之间有一道很深的鸿沟,有因果关系的统计结果对思考的影响,比没有因果关系的讯息大得多。但是,即使是很令人信服的因果统计数字,也不会改变长期的信念,或根植于个人经验的信念。从另一方面,令人惊讶的个案有强大的影响力,对心理学教授来说,更是个有效的工具。因为这不相容性(跟以前的信念冲突)必须解决,形成一个合理的因果故事。这也是本书的问题叙述方式都针对读者个人围绕。比起听到一般人令人惊奇的行为,你如果对自己的行为感到惊奇,你的学习可能快很多。
说到原因和统计
「我们不能假设他们会从统计数据学到任何东西,让我们给他们看一两个有代表性的个案来影响他们的系统一。」
「不要担心统计资讯被忽略,相反的,这些资讯会立刻拿去用在刻板印象中。」
17 回归到平均值
我一生最满意的发现经验是我在教以色列空军教官如何增进效率的训练课程。我教导他们技术学习的重要原则:奖励比惩罚有效,奖励进步,不要惩罚错误。这个说法有很多动物实验的证据,例如鸽子、老鼠、人类和其他动物。
当我充满热忱地讲完课后,一位最有经验的教官举起了他的手,发表了一个简短的演说。他一开始先说,奖励对鸟可能有用,但是他不认为对飞行官来说,是最好的方法。他说,「在很多情况下,我会称赞飞官俐落地执行了一些困难的操作,但是下一次他们再做同样动作时,通常会更糟。从另一方面,我常常透过耳机骂他们做得一塌糊涂,但一般来说,他下一次会做得比较好。所以,请不要告诉我奖励有效,惩罚无效,因为事实正好相反。」
这真是一个快乐的顿悟时刻。我看到了一道光射进我教了多年的统计原理。这位飞行教官是对的──但是他也完全错了!他的观察完全正确,当他奖励一个行为,下次这个行为就做得比较糟,而惩罚了,下次就会有进步。但是他的推论却是错的,他所观察到的是我们所谓的「回归到平均值」(regression to the mean),也就是说,在表现的质上,会有一些随机的变动。他会夸奖一个飞官,一定是这个飞官的表现优于一般人的表现,但是飞官那一次优于别人的表现可能正好是运气好,表现得特别好,下一次会回到他平常的表现程度,不管他有没有被称赞。同样的,这个飞官的表现比平常还差,所以被教官骂,下一次他可能会进步,回到他原来的水准,不管有没有被骂。这个飞行教官把因果关系放到了一个只要是随机历程就一定会有的浮动差异上。
我必须对这个教官的挑战做出回应,但是用数学来解释预测大多数人不喜欢听,所以我用粉笔在地上画了一个箭靶,叫每一个飞行教官背对着靶子往后丢两个铜板,不要看,也不要停顿。我们测量落入目标范围的远近,在黑板上写下这两次丢铜板的距离。之后,我们再重写一遍成绩,这次按最佳到最差排序,一排是第一次丢的,另一排是第二次丢的成绩。很显然的,那些在第一次丢得很准的,第二次就比较差,而那些在第一次丢得比较差的,第二次就有改进。我对这些飞行教官说,他们在黑板上看到的正是他们刚刚听到的飞行操作:第一次表现差的,第二次就会好一点,第一次表现好的,第二次会差一点,不要夸奖也不必惩罚,人的表现本来就会如此。
那天,我的发现是这些飞行教官陷入了一个很不幸的偶然 (contingency) 性中:因为他们惩罚做得不好的学员,下一次学员的表现就改进了,他们以为是惩罚的功效,其实惩罚可能一点效用也没有。此外,飞行教官并不是唯一面对这困境的,我也曾发现一个富有重大意义的事实:即我们的生命是一个不好的循环,因为我们会对取悦我们的人好,对我们不喜欢的人不好,可是从统计上来看,我们都会因为对人家好而受处罚,因为对人家不好而受奖励。
能力和运气
几年前,线上杂志《优势》(Edge) 的主编布洛克曼 (John Brockman) 请一些科学家提供他们「最喜欢的公式」。下面是我给他的公式:
成功=能力+运气
极大的成功=多一点点的能力+很多的运气
运气跟成功很有关系,这不令人惊讶,但是当我们把它应用到高阶高尔夫球锦标赛头两天的表现时,就有令人惊异的结果出来了。为了简单起见,假设这两天选手的平均杆数都是72杆,我们聚焦在第一天打得很好的选手身上,他的分数是66杆。我们从这个优异的杆数上学到什么?一个立即的推论是这位高尔夫选手比其他选手高明很多。成功的公式还有另一个一样有效力的推论,就是打得很好的球员可能是他今天的运气比往常更好。假如你接受这个能力和运气两者都跟成功有关的说法,那么这个结论就是这位成功的球员运气很好,这句话应该跟这位成功的球员球技很好一样有根据。
用同样的逻辑,假如你聚焦在一位球员身上,他比一般平均杆数多了5杆,你就会推论他的技术不好,他今天的运气也不好。当然,你知道这两个推论都不是确定的,一个77杆的选手是非常有能力,但是今天的运气非常的坏。虽然不确定,下面这个推论还是有可能,而且正确的机率比错误的还高。
第一天低于平均杆数=能力高于平均+第一天运气好
以及,
第一天高于平均杆数=能力低于平均+第一天运气不好
现在,假设你知道一位高尔夫球员第一天的成绩,你要去预测他第二天的表现。你期待高尔夫球员会维持他的水准,所以你最好的猜测是第一个球员是低于平均杆数,第二个球员是高于平均杆数。运气当然就是另外一回事了。因为你完全无法预测一个高尔夫球员第二天的运气(或任何一天的运气),你最好的猜测就是平均数,不好也不坏。这表示在没有任何的资讯情况下,你对这个选手第二天的表现最好的猜测是,它不应该重复第一天的成绩,你最多能说:
- 第一天打得很好的球员,第二天也可能很好,但是会比第一天差一点,因为他第一天所碰到的超级运气不太可能再有。
- 第一天打得不好的球员,第二天可能也在平均数之下,但是会进步,因为第一天的坏运气不太可能持续到第二天。
我们同时预期这两位高尔夫球员的差距在第二天会缩小。虽然最好的猜测是第一个球员还是会打得比第二个球员好。
我的学生每次都很惊讶的听到,对选手第二天的表现最精准预测是比较保守,也比较接近平均数。这是为什么这种形态叫做「回归到平均值」。原始的分数愈极端,回归值就愈大。因为非常好的分数表示那一天的运气非常好。回归的预测是合理的,但是不敢担保它一定正确。有好几个高尔夫球员第一天打了66杆,第二天打得更好,假如他们的运气又更好的话。大部分人会打得比较差,因为他们的运气不再维持在平均值以上。
现在让我们将时间反过来,假设我们先知道他们第二天的成绩,再回过头去看第一天的表现。你会发现同样的回归到平均数的现象。在第二天打得很好的球员很可能那一天运气很好,最好的猜测是他第一天的运气可能没那么好,所以表现会差一点。这个事实──即你在后来的事件上也可以预测先前事件的回归现象,应该就可以说服你,回归不是因果的解释。
回归的效应是常常看到的,所以用它去错误地解释因果也是常常看到的。最有名的例子就是「运动画刊魔咒」(Sports Illustrated jinx),说如果一个运动员的相片上了《运动画刊》杂志封面,他下一季的表现就完了。过度自信和太多的压力去达成别人对他过高的期望,常被解释为魔咒的原因。但是这里有一个简单的理由可以解释这个魔咒:这个运动员会登上杂志封面表示他的表现是异常的好,很可能得到很多运气的帮助,但是运气是薄情多变的,所以下一季的表现就没有这么好了。
当特维斯基和我在写那篇直觉的预测论文时,我正好在看冬季奥运男子跳台滑雪项目。每一个运动员可以跳两次,把结果加起来变成最后的分数,当选手们在准备第二跳时,我很惊讶听到播音员评论说:「挪威选手第一次跳得很好,他会紧张,希望能保护既有的领先,他这次可能会表现比较差,」或是「瑞典选手第一次跳得不好,现在他知道反正也没什么可损失了,他会放松,这会帮助他这次进步。」这些运动评论员显然侦察到向平均值回归这个现象,编造了很多完全没有任何证据的因果故事。这故事本身甚至可以是真的。假如我们真的去测量运动员的脉搏,可能会发现他们在第一次表现不好后反而比较放松,但也可能不是,我们要记住的是,从第一次到第二次的改变是不需要因果解释的。它是数学上不可避免的事实,运气在第一跳时扮演了一个角色。这不是一个令人满意的故事,我们都喜欢有因果关系的故事,但事实就是如此。
了解回归
不论是没有侦察到或错误的解释,回归这个现象对人类心智来说,是件奇怪的事。的确,它的奇异性使它在万有引力定律和微分发现后两百年才被确认和了解。此外,它花了19世纪英国最聪明的人很大的努力才让人们了解它。
「向平均值回归」是19世纪高顿 (Sir Francis Galton) 博士发现和命名的,他是达尔文的表兄弟,也是很有名的全才。你可以在他1886年发表的论文中,感受到他的兴奋,这篇论文叫做〈遗传身高的向中间回归〉(Regression towards Mediocrity in Hereditary Stature),他测量了连续好几代种子的大小,以及比较孩子的高度和他们父母的高度后,写道:
这个结果似乎非常值得注意,我把它用在1877年2月9日我在皇家学院 (Royal Institution) 演讲的材料上。从实验中看起来,在大小上,子代并没有像它的亲代,假如亲代很大,子代就比亲代小一点,假如亲代非常的小,那么它就比亲代大。实验显示这个向平均值回归是和亲代跟平均值的差异有直接的比例关系。
高顿显然预期这个世界上最古老的研究机构,这个皇家学院中博学多闻的学者会跟他一样的对这个「值得注意」的发现感到惊奇,但是真正值得注意的是他被这个统计的规则所震惊,这个规则跟我们每天呼吸的空气一样平常,我们随便张望一下都会看到回归的现象,我们只是没有辨认出来而已。高顿花了很多年才发现它,当两个测量之间的相关不是完美时,回归一定会发生,他需要他那个时代最聪明的统计学家的帮助才能达到这个结论。
高顿碰到的一个困难是测量上的困难,当两个变项是用不同的量表测量时,他该如何去算回归,例如体重和弹钢琴。他的解决法是用人群总数做为参考的标准。想像你测量了一所小学从一到六年级100个儿童的体重和钢琴弹奏。在每一个测量中,他们都从高到低排序。假如珍妮在钢琴弹奏是排序第3,在体重上是排序27,你可以说珍妮是比较好的钢琴弹奏者,在钢琴演奏和身高体重排名上,钢琴演奏比较强。现在,让我们做一些假设把事情简化一些。
在所有的年龄:
- 钢琴弹奏成不成功取决于每一周练习的时数。
- 体重跟吃的冰淇淋有关。
- 冰淇淋的消耗量跟每周弹多少小时钢琴无关。
现在,用排序(或统计学家喜欢的标准分数 standard score),我们写出下列的公式:
体重=年龄+冰淇淋的消耗量
弹钢琴=年龄+每周练习的时数
我们可以看到当我们用体重去预测钢琴弹奏时,会有回归的现象发生,用钢琴弹奏去预测体重时,也是一样。假如你对汤姆的全部所知只是他在体重上排序是20(这是在平均值之上),你可以推论(统计上)他可能比一般孩子年纪大一点,同时也吃了比别人多的冰淇淋。假如你对芭芭拉全部所知是她在钢琴弹奏是排序85(比平均值低很多),你可以推论她可能年纪比较小,她比一般儿童练习的少。
这两个测量之间的相关系数 (correlation coefficient) 在0和1之间变动,是他们共有因素之间的相关分量的测量。例如我们都跟我们的父母共享一半的基因,所以在身高上,环境因素的影响就很小,父母和子女在身高上的相关大约是0.50,要了解相关的测量,下面是相关系数的一些例子:
- 物体大小的测量在英制和公制的相关是1,任何影响一个测量的因素也同样影响另一个测量。他们共享100%的决定因素 (determinants)。
- 美国男性自我报告的身高和体重的相关是0.41,假如你把妇女和小孩包括进去,这个相关就高很多,因为每个人的性别和年龄会影响他们的身高和体重,把他们共享因素的分量提高了。
- 美国SAT测验分数和大学GPA(平均分数)分数之间的相关大约是0.60,然而,性向测验和研究所的成功表现之间的相关低了很多。很大一个原因是性向的测量在这个特别选定的团体中,差异性很小。假如每一个人都有类似的性向,这个测量的差异就不太可能在测量成功上扮演大的角色。
- 美国人收入和教育程度的相关大约是0.40。
- 家庭收入和他们家电话号码的最后四个数字的相关是零。
高顿花了好几年才了解相关和回归不是两个概念,而是同一概念和两个不同层面。一般的规则是非常简单明了,但是却有令人惊奇的结果:当两个分数之间的相关是不完美时,就会有向平均值回归的现象发生。要说明高顿的真知卓见,请看一下大部分人觉得很有趣的命题:
很聪明的女人常会嫁给没有她们那么聪明的男人。
你在宴会中可以用这个去开始一个好的谈话,请你的朋友解释为什么,他一定会跟你聊下去。即使懂统计的人也常会很自动地从因果去解释这句话。有的人甚至认为很聪明的女人为了要避免和跟她一样聪明的男人竞争,或是被迫妥协去嫁不及她聪明的男人,因为聪明的男人不想要跟聪明的女人竞争。在一个好的宴会中,还会有很多你想不到的各种解释出现。现在来看下面这个句子:
配偶之间智慧的相关不是完美的。
这句话显然是真,只是很无趣。谁会期待夫妻两个人的智慧都一样?这里没有什么值得解释,但是你觉得有趣的事实和你觉得无趣的数字是相同的。假如配偶之间智慧的相关是不完美(假如男人和女人在智慧的平均值上没有差别),那么在数学上,高智慧的女人嫁给比她们智慧低的男人就是不可避免(反之亦然)。这个回归到平均值的观察就不可能比不完美相关更有趣或更有解释力。
你可能会同情高顿在回归概念上的挣扎。的确,统计学家佛里曼 (David Freedman) 曾经说,假如回归的题目在刑事或民事的法庭中出现,需要对陪审员解释回归概念的那一方一定会输掉。它为什么这么难?主要原因正是本书的主题:我们的心智是严重的偏向因果的解释,而不跟统计数字打交道。当我们的注意力转到一个事件上去时,我们的记忆就替它找因果关系──比较正确地说,这个活化自动扩散到任何储藏在记忆中的因果相关,当回归被侦察到时,因果的解释就被激发出来了,但是它们是错的,因为回归到平均值是个解释,但是没有因果关系。在高尔夫球赛中吸引我们注意力的事件是高尔夫球选手第一天很成功,但是第二天的表现会下降的这个频率。对这个现象最好的解释是这位选手第一天运气出奇的好,但是这个解释缺乏我们心智喜欢的因果力量。的确,我们付别人很多钱来提供我们对回归效应的有趣解释。如果一位电台的时事评论家正确的宣布:「今年景气比较好,因为去年太糟了,」他的饭碗可能捧不久,老板很快会请他走路。
我们对回归概念的困难来自系统一和系统二。如果没有特别的指示,在很多情况下,是即使给了一些统计的指示,相关和回归之间的关系仍然是很隐晦不明。系统二觉得它很不容易了解和学习。这一部分原因来自系统一坚持要求有因果关系的解释。
给沮丧的儿童喝高能量饮料三个月后,情况有显著的改变。
我自己编造这个新闻标题,但是事实上,它是真的事实。假如你给一群沮丧的孩子一些能量的饮料,他们会有临床上的进步表现。但是假如你让沮丧的孩子,每天倒立多少分钟,或每天抱猫二十分钟,他的情况也会进步。大部分读到这个标题的读者会去推论能量饮料或是抱猫使得情形进步,但是这个结论是完全没有道理的。沮丧的孩子是一个极端的团体,他们比一般孩子更沮丧──而极端的团体会向中间平均值回归,如果给予时间的话。连续给这些儿童做的忧郁症量表分数之间的相关是不完美的,因此它们会向中间平均值回归:沮丧的孩子经过一段时间会变得比较不沮丧,即使他们没有抱猫或喝高能量饮料。为了要下结论能量饮料或任何治疗方式有用,你必须比较一组有接受治疗的病人和一组没有接受治疗的控制组(或更好的方式是给他安慰剂)。控制组的进步完全是因为向平均值回归,而实验的目的是决定接受治疗是否比回归能解释的还更多。
回归效应不正确的因果关系解释并不限于报纸的读者。统计学家魏纳引出一长串犯了同样错误的著名学者──把相关跟因果关系混淆了。回归效应在研究上是个很常见的问题来源,一个有经验的研究者对不该有的因果推论会有很健康的恐惧,生怕自己会落入它的陷阱中。
我最喜欢的直觉预测错误的例子采自贝瑟曼 (Max Bazerman) 那本精采的教科书:《管理决策判断》(Judgment in Managerial Decision Making),你是连锁百货公司的销售预报员,所有分店规模都一样,有同样的货品选择,但是它们的销售情况不同,因为分店的地点不同,竞争的对手不同,还有随机因素。你现在有2011年的销售数据,你要预测2012年的情形。经济学家预测,整体来说销售会上升10%。你会如何去完成下面的表?

读了这一章以后,你知道你把10%加到每一家分店的做法是错的。你的预测需要考虑回归,所以表现低于平均值的要增加不只10%,对表现好的不能加这么多,可能还得减一些。但是假如你去问别人,他们会很奇怪,干嘛去管一个这么显著答案的问题呢?这就是高顿的痛苦发现,回归的概念是非常不显著的。
说到回归到中间平均值
「她说经验告诉她,批评比夸奖有效,她不了解的是,这全是回归到平均值的关系。」
「或许他第二次的面试不会像第一次那样给人印象深刻,因为他害怕会令我们失望,但是比较有可能是他的第一次面试是出乎寻常的好!」
「我们筛选的程序很好,但是不完美,所以我们应该预期有回归发生。当最好的候选人没有达到我们的预期时,不要惊讶。」
18 驯服直觉的预测
生活中,许多场合都会用到预测。经济学家预测通货膨胀和失业率,财务分析师预测收入,军事专家预测死亡率,投资专家预测获利,出版社和制片家预测读者和观众,营造商预测房子完工的时间,主厨预测菜单受欢迎的程度,工程师预测工地需要多少水泥,消防队队长估计需要多少辆救火车才能把火扑灭。在我们个人的生活中,我们预测配偶对搬家的反应,或是预测一个新工作的适应期。
有些预测的判断,如工程师的判断,是需要查表、做精密的计算,而且观察在同样情况下它的结果如何,去做分析。有些预测跟我们系统一的直觉有关系。有些直觉是透过来自技术和专业的重复的经验。这些快速和自动的判断和选择,来自西洋棋大师、救火队队长,和克莱恩在他《权力的来源》(Sources of Power) 一书中描述的医生,或是其他地方所描述的技术直觉,他们会很快下判断,因为熟悉的线索马上被辨认,解决方法马上进入他们的心中。
其他的直觉是比较主观,跟第一个从捷径运作中出现的直觉难以区分,它们通常是用一个容易的问题去替代较困难的问题,直觉的判断有时是非常有自信的,即使这个直觉是来自没有考虑回归的弱证据。当然,许多判断,尤其在专业领域是受到分析和直觉两者综合的影响。
没有回归的直觉
让我们回到我们已经认识的一个人身上:
茱莉现在是州立大学四年级的学生,她在四岁时,阅读就很流畅,她学业的总平均是多少?
熟悉美国教育制度的人可以很快的说出数字,学业总平均通常介于3.7和3.8之间。这怎么来的?这是系统一的好几个操作形成的。
- 寻求证据(茱莉的阅读能力)和预测目标(她的学业总平均)之间的因果连接。这个连接可以是非常直接的。在这个例子里,早期阅读和高学业总平均都是学业成就的指标,一些连接是必要的。你(即你的系统二)可能会拒绝茱莉赢得钓鱼比赛或高中举重冠军。这个历程是非常有效的双分法。我们能够拒绝不相干或假的讯息,但是系统一不能调整证据中的弱点。因此,直觉的预测对真正有预测能力的证据几乎是完全不敏感。当一个连接被发现时(在这里是茱莉的早期阅读能力),WYSIATI就派上用场了:你的联结记忆很快、自动化地从手边的讯息中建构出一个最好可能性的故事来。
- 然后,这个证据拿去跟相关常模比较,一个四岁就能流利读书的小孩有多早熟?跟这项成就有关的相对排名或百分位数是什么?问题中并没有完全说出相比较的团体(我们称之为参考团体reference group),但是我们有正常说话的常模:假如一个大学毕业生被形容为「相当聪明」,你就不必问说:当你说她「相当聪明」时,你是指跟哪一个参考团体比较?
- 下面一步就动用到替代和强度配对。童年认知能力单薄证据的评估,就被她大学GPA的问题给替代了。茱莉GPA分数的百分位数就等于她早期阅读成就的百分位数。
- 这个问题很清楚列出它的答案是GPA的量表,这就需要另一个强度配对的操作。从茱莉一般学业成绩的印象到配合她能力证据的GPA分数。最后一步是转换,从茱莉学业表现的印象到跟它相呼应的GPA成绩。
强度配对可以得到预测就像从它而来的证据一样的极端,导致人们对两个十分不同的问题给了相同的答案:
茱莉的早期阅读能力,排在第几个百分位数?
茱莉的学业总平均,排在第几个百分位数?
现在,你应该很容易辨识这些操作都是系统一的功能,我把它按次序列出来,但是当然,联结记忆活化的分布并不是这样运作的,你可以想像扩散的历程:一开始时是证据和问题所启动,会自我回馈,最后停顿在最合理的可能性解决方法。
特维斯基和我曾经请受试者判断八个大学的新鲜人,假装这些描述是辅导员根据跟他们面谈所写下来的,每一个描述都包括五个形容词,例如:
聪明、自信、常识很广、努力工作、好问
我们请一些受试者回答两个问题:
这些描述会使你觉得他是功课好的学生的可能性有多高?
这些对新鲜人的描述会使你对他印象深刻的可能性有多高?
这些问题需要你去评估证据,比较辅导员所写有关这个人的描述跟你所知的新鲜人常模来得到证据,这个常模的存在就是一件了不起的事。虽然你并不知道你怎么会有这个常模,但是你有相当清楚的感觉这个描述传进多少热忱到你身上:辅导员认为这个新鲜人是不错,但不是特别出色。在「聪明」之上,还有很多更强的形容词(如优秀、有创意),「常识很广」上面还有更强的形容词(博学、多闻、知识渊博),「努力工作」也有热情、完美主义者比它强。由此可推断:很可能是前15%的学生,但不可能是前3%。这里面有非常令人惊异的共识,大家一致认为他是前15%但不可能到前3%,至少在同一种文化中是如此。
在我们实验中的其他受试者被问了不同的问题:
你估计这个学生的学业总平均会是多少?
新鲜人中有多少人的GPA比他更高?
你需要再看一下才会察觉这两组问题的不同。照说这个差异应该很显著,但是并没有,它不像第一个问题,只要你去评估证据而已,第二个问题其实有更大的不确定性。这个问题问到大学第一年结束的成绩表现。从上次面试过后到现在发生了什么事?凭着五个形容词,你能多正确估计这个新鲜人第一年结束时的实际成就?假如要辅导员自己来做GPA的预测,她会很正确吗?
这个研究的目的是比较学生在评估一组证据后去做百分位数的判断,跟他预测另一个最终的结果。这个结果很容易简述如下:这两个判断是相同的,虽然两组问题不同(一个是关于描述,另一个是关于学生未来的学业表现),受试者把它们当作同样的问题。就像茱莉的题目一样,对未来的预测跟评估现在的证据没有两样──预测跟评估一样。这是我们现在对替代角色存在最好的证据。你请人们预测,他却用评估证据来替代。他们根本没有注意到自己回答的问题已经不是被问的问题。这个历程保证会衍生出系统化的偏见:他们完全忽略了回归到平均值。
我在以色列国防部服役时,有段时间在一个选拔优秀军官去受训的单位服务。选拔的方式是一序列的面试及现场考试。最后成绩若能通过就会成为军官,但是效度不是很好(我在后面章节时会谈到更多)。很多年后,我已成为教授,并与特维斯基合作直觉判断的研究后,这个单位仍然存在。我与该单位的人一直保持联络,所以我请他们帮个忙,除了原有评估候选者的评分系统之外,我请他们猜测每一个学员未来可能得到的分数。他们搜集了几百个学员的预测资料给我。那些做预测的老师非常熟悉那里的评分方式,所以他们给我的是A、B、C等第。结果非常令我惊讶,他们预测的A、B、C几乎与最后成绩的A、B、C一模一样。
这个发现提供了一个令人信服的替代和强度配对的例子。提供这些预测的教官完全无法区辨这两个作业:
- 他们平常的任务是去评估学员在军官学校中的表现。
- 我请他们做的是对未来成绩的预测。
他们就把原来军官学校用的评分标准转到我给他们的预测量表上了,用的就是强度配对。他们没有处理预测的不确定性,这不确定性还相当大,使他们的预测完全没有回归。
直觉预测的改正
回到茱莉这位早熟的阅读儿童上。如何正确预测她的GPA,我在上一章中说过了。当我在谈高尔夫球连续两天的比赛及体重和弹钢琴时,我写了一个公式来决定阅读年龄和大学成绩之间的因素。
阅读年龄=共有的因素+阅读年龄独特的因素=100%
GPA=共有的因素+GPA特定的因素=100%
这共有的因素包括基因决定的性向,家庭对学业的支持程度,及其他能够达成人们在孩童时期成为出色阅读者、在青年时期学业成绩良好的因素,茱莉可能被野心很大的双亲逼着早认字读书,也很可能有段不快乐的恋情使她大学的成绩下降,她也可能滑雪时曾出过意外,使她有一些学习困难等等,各种我们不知道的原因。
记得两个测量之间的相关──在目前这个例子中是阅读年龄和GPA──是决定因素中共有的因素的比例。你认为这个比例应该是多少?我最乐观的猜测是30%。假设是这个值,我们需要找出没有偏见的预测。下面是如何得出预测的四个简单步骤:
- 从估计GPA的平均值开始。
- 决定符合你对证据印象和感觉的GPA。
- 估计你的证据和GPA之间的相关。
- 假如这个相关是0.30,从平均值移动30%的距离到相对应的GPA上。
第一步是你的基准线,就是你要预测的GPA。假如你什么都不知道,只知道她是个快要毕业的大四学生。在没有讯息的时候,你只能预测她在平均值(这就是企业管理的研究生在完全不知道汤姆是谁时,他们只能依照基准线的机率来预测)。第二步是你的直觉预测,它与你对证据评估相同。第三步把你从基准线移到你的直觉,但是你能够移动的距离取决于你估计的相关。第四步是预测,它受到你直觉的影响,但是少了很多。
这个做预测的方式是一般的方式,当你需要预测一个量的变项,如GPA、投资获利,或公司成长时,你可以用这个方式。这个方式是建构在你的直觉上,但是直觉修改了它,使它比较温和,并且朝平均值回归。当你有好理由可以相信你直觉预测的正确率时──在你的证据和预测之间有很强的相关──这时所需的调整会很少。
直觉预测需要被改正,因为它们没有做回归,所以有偏差。假设我预测每个高尔夫球员第二天的表现会跟第一天相同,这个预测没有把回归到平均值考虑进去:那些第一天打得很好的人平均来说,第二天会打得比较差,那些第一天打得差的人大部分会进步。当最后跟实际成绩相比较时,没有回归的预测会被发现有偏差。一般来说,这个预测对第一天打得好的人过度乐观,对一开始打不好的人过度悲观。这个预测就跟证据一样极端。同样的,假如你用童年的成就来预测大学的表现而没有回归你的预测的话,你会对早阅读者的大学成绩感到失望而对迟开窍者感到惊喜。校正过的直觉预测去除了这个偏见,使预测在过高或过低估计价值上是相等的。当你的预测是没有偏见时,你还是会犯错,但是这个错误会比较少,不会偏向高或低的结果。
对极端预测的辩解
我在前面介绍了汤姆来说明分离的结果,如考试成功率的预测,这是对某一特定事件给一机率(或是按高低机率排序)。我同时也描述了另一个程序,它是跟我们平常对分离的预测相反的:忽略基率,对讯息的质不敏感。
我们在这种预期中发现的偏见是用量表表示的,如GPA或一个公司的收入,它和判断机率结果的偏见很相似。
改正的程序也很相似:
- 两者都有基准线预测,假如你对手边这个案子,没有任何资讯,你可以用基准线的机率做为你预测的机率。在类别的情形,它是基率。在统计数字的情形,它是相关类别的平均结果。
- 都有直觉预测,不论是可能性或GPA,这种预测会将呈现在脑中的数字表达出来。
- 你预测的目标都是在基准线和你直觉反应的中间。
- 在事先预设好的案子中缺乏有用讯息时,你采用基准线。
- 在其他的极端中,你也坚持你的直觉预测,当然,只有在你对支持的证据做了关键性的审查,而对一开始的直觉反应有完全的信心时,才如此。
- 在大多数的情况下,你会发现有理由怀疑你原始判断和真相之间的相关是完美的,你最后给的判断会在两极端之间。
这个程序是一个适当统计分析结果的近似值。假如成功,它会使你移向没有偏见的预测、合理的机率评量,对数字结果有温和的预测。这两个结果是想要处理同一偏见:直觉的预测常常过度自信而且太过极端。
改正你直觉的预期是系统二的工作。你需要花很多力气找到相关的参考类别,估算基准线的预测,评估证据的品质。这个努力只有在代价很高,或是你特别在意不要犯错时,才值得如此去做。此外,你应该知道改正直觉会使你的生活复杂很多。一个没有偏差的预测的特质是,只有在讯息是非常好,才允许这种很少见或很极端事件的预测。假如你期待你的预测是有一点效度的话,你绝对不会去猜一个结果是很少见或跟平均数差很远的。假如你的预测是没有偏见的,你也永远不会有正确猜到极端事件的满意经验。当你最好的法学院学生后来变成最高法院的法官,或你曾很看好的一家新创企业,最后变成一个商业上的大成功时,你永远不会说:「我就晓得是如此!」当证据有限时,你永远不会预期一个非常优秀的高中学生在普林斯顿大学也会是全A的学生。因为同样的理由,你绝对不会去对一位投资者说,这个刚开始的公司未来成功的机率是「非常高」。
对反对修正直觉预测原则必须严肃以待,因为没有偏见并不是永远影响最大的。假如所有的预测错误都被一视同仁,不论它们的方向的话,那么你偏好没有偏见的预测是有道理的。但是在有些情境中,一种错误是比另一种错误更严重。当一个投资者在寻找下一个可能的投资,若错过下一个「谷歌」或「脸书」就比投资一个新创小公司的失败严重得多。虽然都有风险,但风险背后的代价不同。投资者的目标是正确地找出极端的案子,即使它的代价是过度估计许多投资的收益。对一个借出大笔贷款的银行家来说,单一贷款者破产了的风险,比拒绝几位可能履约的潜在客户的风险更大。在这种情况下,用极端的语言(如「非常好的机会」、「不履约的高风险」)可以提供一些合理化的安慰,即使这些判断根据的讯息只有一点效度也无妨。
对一个有理性的人来说,一个没有偏见和中等程度的预测不应该是个问题。毕竟,一个有理性的投资者知道,即使是最看好的初创公司也只有中等程度的成功率。她把工作看成是在一堆赌盘中,挑选一个最有潜力的赌注,她不需要去欺骗自己那些她计划去投资的小公司前景大好。同样的,有理性的人预测一个公司的收入不会被一个数字束缚──他们应该去考虑最可能结果的不确定性范围。一个有理性的人会投资很多钱在一个很可能会倒闭的企业上,假如成功的回收率很大的话,她不需要去欺骗自己有关成功的机率。然而我们都不是理性的人,有些人还是需要扭曲判断做为保护以避免无能为力。假如你选择欺骗你自己去接受极端的预期,你必须了解你是在放纵自己,但如果你一直保持这种觉识,你也可无事。
或许我提出的这个校正历程最有价值的贡献在于,它需要你去思考你自己知道了多少。我会用一个学术界很熟悉的例子来说明:有一个系所要聘任一位年轻的教授,他们要找一个最有科学研究潜力、能够发表最多论文的人。最后,他们筛选到只剩两个人:
金最近完成她的博士研究,她的推荐信非常强,她的求职演说非常精采,面试也令人印象深刻。她没有任何具体的科学研究成果纪录(即没有已发表的论文)。
珍已经做过三年的博士后研究,她的研究成果很好,有很多发表的论文,但是她的演讲及面试不及金那么闪亮耀眼。
直觉的选择会偏向金,因为她留下一个很深的印象在人们的脑海中,而WYSIATI。但是金的讯息比珍少了很多。我们回到小数原则去,事实上,你对金的讯息比珍更少,而小样本容易导致极端的后果。小样本需要运气的成份最多,因此,在小样本中,你应该把你的预测回归到平均值更多些。因此,对金的未来表现预测,你要回归更多。当你了解金必须比珍回归更多到平均值时,你可能会选择珍,虽然你对她的印象不是这么深。在学术选择的情境下,我会投票给珍,但是我会很挣扎去克服我对金比较好的印象。我们的本性是跟随着直觉,跟直觉在一起比反对直觉愉悦很多[1]。
你可以在不同的情境想像同样的情形,例如投资者选择在不同市场中运作的两个刚起步的公司。一个公司的产品需求可以很精密计算出来,另一家刚开始的小公司在直觉上,感觉比较好,比较令人兴奋,但是它的未来却是不确定。不论第二家公司的未来描述得多好,当有不确定性存在时,这个问题需要仔细思考。
两个系统对回归的看法
极端的预期以及愿意从很弱的证据中预测很少见的事件,两者都是系统一的表现。我们的联结机制很自然地替极端的预测找出符合它的极端证据,这证据本是极端预测的来源──这就是替代。而系统一会很自然去得出过度自信的判断,因为自信是取决于你可以从证据中所编出最好、最合理的故事。请小心,你的直觉会给你太极端的预测,你会对它有太多的信心。
回归也是系统二的问题。这个回归到平均值的概念本来就是一个生疏的概念,不容易懂,也不容易讲给别人听。高顿费了一番工夫后才了解它。许多统计学的老师都不喜欢上回归,讲得舌干唇焦,学生听得一知半解,只有模糊的概念。在这里,系统二需要特别的训练。把预期和证据做配对不只是我们直觉在做的事,同时也是看起来很合理的事。我们无法从经验中去了解回归。即使当回归已被指认出来,就像我们在以色列飞行教官的例子中所看到的,人们还是把它当做因果的解释,这是非常错误的。
说到直觉的预测
「那家刚成立的小公司有着非常好的概念和点子,而且证明了它是可行的,但是我们不应该期待它未来也能做得这么好。从公司创办到上市还有很长一段路要走,它还有很大的回归空间。」
「我们直觉的预测很赞同它,但可能太高了一些。让我们来考虑一下证据的强度,以及向平均值回归。」
「这个投资可能很好,即使最好的猜测是它会失败,我们先不要说我们真的相信它是下一个谷歌。」
「我读了一篇这个品牌的评论,说它是极优,它仍有可能是侥幸。我们先考虑已有很多评论的品牌,从中选一个最好的。」
第三部 过度自信
19 了解的错觉
交易员、哲学家、统计学家塔里,也可以被当作心理学家。在他的《黑天鹅效应》一书中,他介绍了一个「叙述的谬论」(narrative fallacy) 来解释过去有缺陷的故事如何塑造我们对世界的看法,及我们对未来的期待。叙述的谬论来自我们一直不断的想去把外面世界合理化。人们觉得很有说服力的故事通常很简单、很具体(不抽象),聚焦在几个实际发生过、非常引人注意的事件上。任何最近刚发生的鲜明事件都有可能变成因果故事的一个环节。塔里认为人类一直不停在欺骗自己,用微薄的证据来解释过去,并且信以为真。
好故事对人的行为和意图提供了简单合理的解释。你总是从人格特质来解释他人的行为,因为你可以很容易为这个行为找出配对的原因。我们在前面谈过的月晕效应就有助于故事的合理化,它把我们所看到这个人的品质配对到某个显著的属性上,然后下判断。假如我们认为某个棒球投手很英俊、很健美,我们对他的投球表现评分就会比较高。这个月晕现象也可以是负面的:假如你认为某个球员很丑,我们会低估他的表现。月晕效应用夸大评估一致性的方式来使叙述的解释简单、合理化:好人只做好事,坏人都是坏的。「希特勒爱狗和小孩」这句话会使你震惊,不论你听过多少次,因为它违反了月晕效应在你心中所建立的预期,一个这么坏的人怎么可能有任何一点的好?不一致性减低了我们思想的轻松,我们就觉得很震惊。
令人信服的故事会使人产生不可避免的错觉。请看一下谷歌怎么变成科技业的巨人,史丹佛大学电脑系两个有创意的研究生想到一个在网际网路上搜寻资料的好办法。他们找到资金成立一个小公司,做了一连串成功的决策,在几年之内,他们开创的这家小公司变成美国股市最有价值的公司之一,而这两个研究生变成了地球上最有钱的两个人。不寻常的情境加上好运,使这故事更吸引人:在谷歌成立一年以后,他们愿意以不到100万美元的价钱把公司卖出,但是买主说这价钱太高了。谈到这件幸运的事,其实更容易低估运气会在多方面影响结果。
详细的历史会让你知道谷歌创办人的决定,但是对我们的目的而言,只要简单地说,几乎每一个选择他们都做得很好就够了。一个比较详细的叙述会描述谷歌如何打败这些公司。那些倒楣的竞争者会看起来很笨、盲目、缓慢,无法应付谷歌带给他们的威胁,最后被谷歌打败。
我特意很平淡地述说这个故事,但是你了解我的用意:这是一个很好的故事,详细列出它成功的过程,你会觉得你了解了谷歌为什么成功,你觉得从中学到很多宝贵的教训。很不幸的是,我有很好的理由告诉你,你了解谷歌成功的感觉,以及你觉得你从谷歌成功的例子中学到商场成功的绝窍都是错觉。一个最好的测验就是这个解释是否能事先成功的预测结果。谷歌成功的故事就符合这个测验门槛。因为没有故事可以包括这么多事件,而每一事件又可以得出不同的后果。人类心智对于假事件的抽象概念不是很在行。许多重要事件真的有发生,而这些事件又都牵涉到选择,它就更引诱你夸大技术所扮演的角色,低估了运气在后果上的分量。因为每一个关键的决策后来证明都是对的,成功的记录显示的是几乎没有缺点的精确──但是不好的运气的确可以中断任何成功的步骤。这个月晕效应添加了最后一笔,使故事中的英雄光芒更大。
就像看一个技术很好的水手在湍急的水域中,巧妙地避免翻船,述说谷歌的故事也是高潮迭起,因为灾难的危机一直不断。然而,在这两个故事中,有值得学习的差异。技术很好的水手在湍急的水中,顺流而下了几千几百次。他学会判读他面前水的汹涌,去预期底下有岩石。他学会了去做微小的身体调整来使小舟不翻覆。但是年轻人很少有机会创造一个大公司,更少有机会去避开大石头──例如竞争对手提出一个绝顶聪明的创新方式。当然,在谷歌的故事中还是有很多的技术,但是运气在实际的事件中扮演了更重要的角色,只是没有说出来而已。假如一个故事有更多的运气成分在内,那你可以学到的教训就更少了。
在这里运作的是强有力的WYSIATI规则。你对手边的资讯有限也是没有办法的事,你只能从仅有的资料中建构一个最好的故事出来,假如它是一个好故事,你就会相信它。很矛盾的是,当你知道的很少时,你很容易去建构一个好故事,我们很舒适地说服自己,世界是在一个很安全的基石上,因为这种说法最合理,我们有几乎无限的能力去忽略我们的无知。
我听到太多人说他在2008年股市崩盘之前就知道了,像这种话应从我们讨论主要事件的语汇中去除掉。我反对的字当然是「知道」(know),许多人可能很早就猜想美国的财政会有危机,但是他们不知道。他们现在说他们知道,因为这个危机真的有发生。这是误用一个重要的观念。在日常生活的语言中,只有在我们知道它是真的,而且可以被显示是真的,我们才用「知道」这个字。我们可以知道某些事情是因为它是真的,而且可以被知道的。但是那些认为他们知道未来会有危机,他们在当时并不可能明确指出危机是什么,许多聪明、有智慧的饱学之士都对经济的未来很感兴趣,但是他们并不认为大灾难即将来临;我从这个事实推论这个危机并不是「可知道的」。乱用「知道」这个字最坏的地方不是某人有预知的能力而他其实没有,而是在于这个字暗示我们的世界是比目前情况更可以知道 (knowable)。这助长了有害的错觉。
这个错觉的核心在于我们认为自己了解过去,这就暗示说未来也是可以知道的,但是事实上,我们所了解的过去比我们以为的少得多。「知道」不是唯一培养错觉的字。在普通的用词中,直觉 (intuition) 和预感 (premonition) 也是一个过去的念头,后来被发现是真的。所以「我有个预感这段婚姻不会长久,结果我错了」听起来很怪,就好像「某个直觉后来发现是假的」之类的句子,听起来怪怪的。要很清楚地想到未来,我们需要把用在标签过去信念的字清除干净。
马后炮的社会代价
编造过去故事的心智是一个「找理由」的器官。当一个不可预测事件发生时,我们立刻调整对世界的看法来解释这个惊奇。想像你自己在一场足球赛中,两边势均力敌,所有输赢记录都一样,现在球赛结束了,一队赢了,一队输了。在你改正过的世界模式中,赢的那一队比输的队强得多,你对过去的看法和未来的看法都因这个新的看法而改变了。从惊奇中学习是合理的事情,但是它可能有危险的后果。
人类心智的上限是它有这个能力去重新建构已经改变了的过去知识或信念,但是这个建构历程不是很完美。一旦你采取了对世界的新看法,你立刻失去提取过去信念大部分的能力。
许多心理学家研究当人们改变他的心意时,大脑中究竟发生了什么事。请选择一个题目,这个题目是你还不确定你要怎么投票的,比如说,死刑。实验者仔细测量人们的态度,然后,请受试者听一段赞成或反对这个主题的辩论。实验者再来测量受试者的态度,他们的意见通常跟所听到且有说服性的讯息更相似了。最后,实验者请受试者报告他们在没有听到辩论录音带以前的信念。受试者发现很难。实验者是请他们去重新建构以前的看法和信念,结果他们却把现在的写出来了。这是一个立即的替代。许多人甚至不能相信他们原来的想法不是这样。
你不能够重新建构过去的信念,无可避免会使你低估你对过去事件的惊讶程度。费希霍夫是第一个在实验室中展示「我早就知道」(I-know-it-all-along) 现象的人。我们把这现象称为「马后炮的偏见」(hindsight bias)。那时,他是耶路撒冷的一名学生。费希霍夫和我的另一位学生贝斯 (Ruth Beyth) 在美国总统尼克森访问中国和俄国之前(那是1972年)做了一个调查。他们请受试者写下尼克森外交破冰之旅的十五个可能结果的机率。例如,毛泽东会同意见尼克森吗?美国会承认中国吗?苏联是美国几十年的敌人,美国有办法与苏联取得任何重大议题的共识吗?
尼克森从中国和苏联访问回来以后,费希霍夫和贝斯再请同一批人回忆他们当时给这十五个问题的机率是什么。结果非常清楚。假如一个事件真的发生了,人们会夸大他们当时给的机率。假如这个事件后来没有发生,受试者会错误地回忆说,他们早就知道那是不可能的事。更多实验显示,人们会过度夸张自己的正确率,不但他夸大自己早期的预测,还包括别人早期的预测。同样的结果也发生在吸引大众注意的事件上。如辛浦森 (O.J. Simpson) 的谋杀审判和罢免美国总统柯林顿。这个在看到事件真的发生后,改变自己信念的倾向,制造出很强的认知错觉。
马后炮的偏见在评估政策的制定者上会产生有害的效果。它使得观察者在评估决策品质时,不是从程序对错来着眼,而变成由它的后果好坏来判定。请看一下一个低风险的开刀治疗,因为不可预测的意外发生,病人死亡了。陪审团倾向于相信这个手术其实是很危险的,叫病人开刀的医生应该要负责任,知道有危险,医生就不应开刀。这个后果(因为病人死了,所以手术是危险)的偏见使得陪审团几乎无法评估这个决策究竟是对还是不对──陪审团应该看,在做这个决定时,开刀这个信念是不是合理的[1]。
马后炮对那些替别人做代理人的决策制定者特别不公平──医生、理财顾问、三垒教练、执行长、社会工作人员、外交官、政客。我们倾向于责怪做决定者,不论那个决定本来是好的,只是执行坏了。即使政策成功,我们也很少给制定者应得的感谢或认可。这里有很显著的「后果偏见」(outcome bias)。当后果不好时,客户通常责怪他们的代理人,没有看到墙上写的字,却忘记它是用隐形墨水写的,只有在事后才看得见。一个在事前看起来是很谨慎小心的行为,可以在事后被看成不负责任的行为。曾有一项根据真正法律案件所做的实验,加州大学学生被要求去判断,明尼苏达州杜鲁斯市 (Duluth, Minnesota) 是否应该花很大一笔费用雇一个全职的守桥人去保护市民,因为河水里有许多漂流木会阻挡河水的流动。一组受试者只被提供当时市议会做决定时可用的资讯:24%的学生觉得应该请个人来监控河水,第二组受试者则被告知漂流木阻挡了水的流动,造成泛滥,即使这些学生已经被特别告知,不要让马后炮偏见扭曲他们的判断,却仍有56%的学生觉得市政府应该出钱请人来监控河流。
后果愈糟,马后炮的偏见愈大。在大灾难时(例如911),我们特别容易相信政府官员没有预期到灾难的发生,他们不是瞎了,就是怠忽职守。在2001年7月10日,美国中央情报局 (Central Intelligence Agency, CIA) 得到讯息说盖达组织可能在计划一个大型攻击行动来打美国。CIA局长泰纳 (George Tenet) 没有把这讯息交给布希总统,反而给了国家安全顾问莱斯 (Condoleezza Rice)。当这个事实后来被披露出来后,美国《华盛顿邮报》总编辑布莱德利 (Ben Bradlee) 大声说:「对我来讲,这是很基本的,假如你手上有个会在历史上占一席之地的故事,你应该把它交给总统。」但是在7月10日,没有人知道──或可能知道──这一点点讯息会变成历史上的大事。
因为紧跟着标准作业流程 (SOP),所以很难在结果都出来了以后,去批评质问那个决策(因为他是按照SOP做的)。事后去责怪那些做决策的人会使他们采用官僚的保护系统或解决方式,极不愿意冒任何风险。当医疗纠纷使医生被告的机会增加后,医生改变了他们的看病方式,叫你去做各种检查,把更多病人转给专科医生看,用保守的治疗法,即使这个方法没有效。这些动作保护了医生,但对病人不见得好,它制造出利益冲突。
虽然马后炮偏见和后果偏见一般来说培养了风险规避 (risk aversion),它们同时也给不负责任的寻求风险者不该有的报酬,就好像将军或企业家冒险一赌,赢了。那些一直很幸运的领导者从来没有为他们冒太大的风险而受罚;相反的,他们被认为有前瞻性、预期会成功。那些有理智的人──当时怀疑领导者这样做是否得当的人,现在反而被马后炮的偏见认为是胆小、差劲、没有用的人。一些幸运的赌盘使鲁莽不负责任的领导人冠上了皇冠,享受着先知、前瞻和勇敢的美名。
成功的公式
系统一使事情合理化的机制使我们看这个世界比它真实情况更整齐、简单,可以预期,和合理化。我们能够了解过去的错觉其实又更加深了我们的错觉,使我们自以为可以控制和预测未来。这个错觉令我们安心、舒适,它减少了焦虑。假如我们真正知道有多少不确定性存在的话,我们会非常焦虑。我们都需要一个重复肯定的讯息,告诉我们这些行为都有很恰当的结果,成功会给智慧和勇气带来奖赏,许多商业书就是为了满足这个需求量身订做的。
那些领导人和经理人的决策会影响公司在市场上的表现吗?当然会,而且影响效果已经被系统化的研究客观地评估,并将执行长的个性和他们的决策,跟后来的公司表现成果连系在一起。在一个研究中,评估执行长以前所领导公司的策略以及接任后的管理规则和程序,发现这些执行长真的会影响公司的表现,但是效果比财经媒体宣称的小多了。
研究者用相关系数来测量执行长决策与公司表现之间关系的强度,相关系数是从0到1之间。我们前面在谈回归时,谈到了相关系数,它是指两个测量变数受共同因素影响的程度有多大。公司成功和它执行长品质之间的相关系数,如果很大方的说可能有0.30那么高,表示两者有30%的重叠部分。要了解这个数字的意义,请看下面这个问题:
假设你考虑把几家公司两两一组来比较。每组的两家公司条件大致相似,但是其中一家的执行长比另一家的优秀。你会在多少比例的配对比较结果当中,发现执行长较优秀的公司果然有比较成功的表现?
在有秩序、且可预测的世界里,公司表现和执行长的能力之间应该是完全相关的(相关系数=1),因此你应该会发现,所有的配对比较结果,都指向「能力较强的执行长带领出表现较成功的公司」。假如条件相似的公司的成功与否,是由执行长不能掌控的因素(你可以叫它运气)来决定的,那么你就会在50%的配对比较结果当中,看到「能力较差的执行长带领出表现较成功的公司」。相关系数0.3的含意是,你会在60%的配对比较结果当中,看到较优秀的执行长带领出较成功的公司──这只比随机猜测的50%,提升了10个百分点,几乎巩固不了我们常看到对执行长的英雄崇拜。
假如你预期这个值更高一点──我们大部分人会这样──那么你应该把它当作一个指标,表示你倾向于高估你所居住世界的可预测性。请不要犯错:将成功的胜算从1:1提高到3:2是非常大的进步,无论在赛马或商场上都算很大。从商业作家的角度来看,一个对公司有很少控制权的执行长不可能给人很深的印象,即使这家公司经营得不错。你很难想像会有人在机场的书店中排队去买一本书,这本书很热忱地描述这家公司领导人的作为,而这个领导人的表现一般而言只是比任凭运气时好一点。消费者要的是很清楚的讯息,关于商场成功和失败的决定因素。他们需要故事来增进他们的了解,不管它是不是错觉。
瑞士商学院的教授罗森威格 (Philip Rosenzweig) 显示我们是多么要求确定性,即使是错觉也好。他用个人和公司的起(通常)和落(偶然)分析他们成功和比较不成功的差异,来说明两个很流行的商业写作类型。他下结论说:成功和失败的故事一致性地放大了领导风格以及管理方式的重要性,所以这些书里的讯息都没什么用。
要了解真正发生了什么事,请想像商业专家(例如其他执行长)被要求评论这家领导人的声誉,他们都非常了解这家公司最近营运得怎样。如同我们在前面所看到谷歌的例子,一个成功的公司和它的执行长会被描述成有弹性、有方法、很果断。再想像一年过去了,这家公司的营运不佳,业绩掉下来了。这个执行长现在被形容为僵化、头脑不清,和独裁式管理。这两种描述在当时听起来都很正确,但是你知道,叫一个成功的领导人僵化、脑袋不清,或说一个在挣扎中的领导人有弹性、懂方法是很奇怪的事,只是,别忘了,我们形容的是同一个人。
的确,这个月晕效应是如此强而有力,你可能发现你自己在抵抗这个想法,同一个人,同样的作为,公司情况好和情况不好看起来竟有这么大的差别。因为月晕效应,我们把因果关系倒过来了:我们倾向于相信这公司失败是因为它的执行长僵化,但是真相是因为公司在走下坡,所以执行长看起来僵化。这就是为什么错觉会产生。
月晕效应和结果偏见联合起来解释了系统化地检验成功企业的书会热卖,大家想要从中学到成功之道。这个类别中最好的例子是柯林斯 (Jim Collins) 和薄乐斯 (Jerry I. Porras) 的《基业常青》(Build to Last) 一书。在书中,他们很详细分析了十八组相互竞争的公司每一组都有一家公司比另一家更成功。他们把资料按公司文化、策略和管理方式评估排序比较。「我们认为全世界每一个执行长、经理,和创业家都应该读这本书。」作者如是说,「你可以建构一个有远见的公司」。
这本书和其他类似书籍的基本讯息是,好的经营管理可以被指认出来,而好的管理就会有好的结果。这两个讯息都被夸大了。对这些成功公司的比较,就某个程度来说,是在比较这些公司的运气。知道运气的重要性后,当你看到非常一致性的比较时,你应该特别小心、特别怀疑,在随机底下,规律性的型态只是海市蜃楼。
因为运气扮演了重要的角色,所以领导风格和经营管理就不能从观察成功的公司中,可靠地推论出来。即使你有完美的先前知识,知道那个执行长有卓越的眼光和超强的能力,你仍然不能预测这公司未来的境遇会如何,你的预测不见得比丢铜板高明多少。一般来说,《基业常青》这本书比较的公司中,营运很好的公司和营运不那么成功的公司,在公司利润和股票报酬之间的差距,在研究过后一段时间是缩小到几乎没有。而在著名的《追求卓越》(In Search of Excellence) 提到的各家公司的平均营收也一样在短期内急剧下降。《财星》(Fortune)「最令人推崇的公司」的研究发现,经过二十年,那些被评为最糟的公司结果变成赚到更多股票收益的公司,比那些最令人推崇的公司还好。
你可能会想用因果的解释去看这些公司:或许成功的公司变得自满了,不那么成功的公司更努力些。但是这是错误的思考方式。这个平均的差距一定会缩小,因为原始差距有一大部分是因为运气的关系,这个运气是跟顶尖公司的成功有关,也跟其余公司落后的表现有关。我们已经看到生活的统计事实了:向平均数回归。
任何一个兴盛衰亡的故事都会打动读者的心,因为它提供了一个人类心智所需要的东西:一个简单的成功或失败的信念,使我们可以很清楚看到原因,忽略运气的决定性力量及不可避免的回归效应。这些故事产生并且维持了错觉,一个关于了解、传授教训的错觉,其实这些教训没有什么持久的价值,只是读者很热切想要去相信它罢了。
说到后见之明
「这个错误看起来很明显,不过这是后见之明,你不可能事先知道的。」
「他从这个成功的故事中学到太多东西,有点太过理想了。他落入了叙述的谬论中。」
「她说这个公司经营得不好是一点证据也没有,她唯一知道的就是股票下跌了。这是一个结果的偏见,一部分来自后见之明,另一部分来自月晕效应。」
「要小心不要落入结果的偏见,这是一个很笨的决定,即使最后没事了,它还是一个笨决定。」
20 效度的错觉
系统一的设定是只要有一点证据就快速下结论──它不是设计来知道这个匆忙跳下决定的一跳有多远,因为WYSIATI,只有手边的证据才算数,又因为故事愈合理,自信心愈高,我们的主观自信反映出系统一和系统二编故事的合理性。证据的数量和品质其实起不了什么作用,因为很少证据也能编出很好的故事。很多很重要的信念我们其实是一点证据都没有,只有我们爱的人和相信的人有这个信念而已。如果你仔细想过我们对某个信念的证据有多么少,我们对自己信念的自信就太荒谬了──但是它也是必要的。
效度的错觉
几十年前,我在烈日下观察士兵们汗流浃背地解决问题,我那时已从心理系毕业,在以色列陆军服兵役,在当了一年的陆军军官后,被派到陆军的心理单位,其中一项任务就是评估军官训练中的学员适不适合当军官。我们用的方法是英国陆军在二次世界大战时,研发出来的那一套测验。
有一个测验叫做「没有领导的小组挑战」(Leader less group challenge)。八个彼此不认得的陌生人,除去所有代表阶级的肩章,仅以贴在身上的号码来相认,在野外的地上有根大木头,旁边有一面6呎高的墙,他们的任务是让所有人过到墙的另一边去,但是木头不可以碰到墙或地,人也不能碰到墙,如果违规,就从头再来过。
解决这个问题的方法有好几种,最普通的方式就是把木头斜个角度立着,像钓鱼杆那样,一些人扶着,一些人爬木杆越过墙,或是爬到别人肩上跳过墙。这里面的难题是最后那个人要怎么过去。一个方式是几个人扶着木杆使它不碰地,最后这个人跳上木杆后,翘起木头让他爬过去再跳下来,通常失败就在这一点上,这时,他们全部人又得重头再来一次。
当我的同事和我站在那里观察时,我们记录谁在指挥,谁在发号施令,谁想当头,但被别人嘘下来,他们彼此之间有多合作,谁很固执,谁又很听话,谁很有耐性,谁又很高傲,谁是火爆脾气,谁很坚持,谁又轻言放弃。我们有时也观察到有人的想法不被大家采用时,他就工作得不起劲。我们也看到大骂那个犯错使全体得重来一遍的人;或在大家都筋疲力倦但是又得重来一次时,挺身而出领导的人。我们认为在这种压力之下,每个人的真本性才会显露出来。我们对每一个军官候选人的印象是非常直接和鲜明的,就像天空的颜色一样。
在观察他们重来几次之后,我们必须为每一个士兵的领导能力和坚持到底的毅力分类,看谁可以进军官训练营。我们花时间讨论每一个士兵给我们的印象,这个任务不难,因为我们觉得我们看到每一个人真正的领导能力。有些人看起来像强壮的领导者,有些人看起来很懦弱,有些人像高傲的傻瓜,有些人的表现中等、不显著,但也不是没希望。有些人实在太弱,我们先把他剔除掉。当我们把各人的观察汇整成一份报告时,我们对自己所写的合理故事非常有自信,觉得我们对这个人的评估直指出他的未来。那些在团队失败后,接手过来,完成任务的人是领袖,他显然是在训练中表现会最好,在战场上最能领导士兵的人,任何其他的预测似乎都与我们眼睛所看到的证据不一致。
因为我们对每一个士兵的表现都有很鲜明、一致的印象,所以我们认为我们的预测应该是很准确的。当我们在给这些士兵评分时,通常是某个分数会立刻进入我们心中,表示我们对这个人的表现,心中很有定见了。我们很少有不同的看法或怀疑其他人判断得不对,表示这个分数是大家共同的印象。我们十分有把握说:「这个人不行」、「这个人中等,但是应该还可以」,或「他会是个明星,绝对行」。我们觉得没有必要质疑我们的预测,改变或修正我们的看法,假如被挑战,我们也准备好去承认,「当然,任何事都可能发生」,我们会这样说是因为虽然我们很相信自己对每一个士兵的看法,但是我们也很肯定地知道,我们的预测基本上是没效的。
我们的预测无效的证据其实是相当多,每隔几个月,我们就会有一个检讨的会议,训练的老师们会让我们知道某一个学员在训练营的表现,并把我们评估的分数和训练营长官的意见相比较,结果永远是一样的故事──即我们预测他们在训练营的表现并不管用,基本上可以忽略,我们的预测只比随机乱猜好一点,但也没好到哪里去。
我们在接获这令人沮丧的消息后,会消沉一阵子,但这是陆军,不管有没有用,这就是你每天的例行公事,你必须遵守命令。于是另一批士兵第二天又来报到,我们把他们带到野外的那堵墙前面,他们举起了木头,在几分钟之内,我们又看到他们的本性流露出来,有人暴跳如雷,有人沉着应变,就跟以前每一天看到的情况一样。这个黯淡的事实──为什么我们预测的品质完全没有效,却又对自己的预测这么有信心──是一件奇怪的事。照说,以前预测的失败应该已经动摇我们的自信,使我们对士兵的预测和判断不那么有把握才对,但事实并非如此。我们一样有自信。这个事实也应该使我们修改预测,但是我们没有,虽然我们得知自己的预测只比随机乱猜好一点,但是我们还是觉得我们的预测是有效的。我想起了慕勒-赖尔的错觉,我们明明知道这两条线是一样长,但是我们仍然觉得一条长、一条短。我看到这两件事的相似性,所以我给这个经验取了一个名字叫「效度的错觉」(illusion of validity)。
我发现了我的第一个认知错觉。
几十年以后,我现在可以在这个故事中,看到我思维的主题了──当然也是本书的主题。我们对这些士兵未来表现的期待其实就是一个替代,尤其是表征捷径。我们在人造的环境中观察士兵们一个小时的行为,我们就觉得自己很了解他在军官营中会面临的挑战,以及他将来在战场上的领导能力。我们的预期完全没有考虑到回归──我们对很弱的证据做出很强的预测,完全没有考虑应该把看到的失败和成功先做回归,这就是WYSIATI最好的例子。我们对所观察到的行为有很强的印象,忽略了那些最后决定这个士兵在军官营会表现得怎样的因素。
现在回头看,这个故事最惊人的就是我们对一般规则的知识──即我们不能预测──完全不会影响到我们对个案的信心。我现在可以看到,我们当时的反应就跟奈斯比和波吉达的学生一样。记得吗?他们告诉学生大部分人没有帮助陌生的癫痫患者。他们确实相信所看到的统计数字,但是基率并没有影响到他们判断影片中看到的那个人是否会去帮助发病的陌生人。就如奈斯比和波吉达所示,人们通常不愿从一般情形中归纳出特定的个案来。
判断上主观的自信,不是对这个判断正确性机率的理性评估。自信心是个感觉,它反映出讯息的合理性以及处理它时,认知的容易度。所以我们应该严肃地承认这个不确定性,宣称高度自信其实只是告诉你,这个人在心中建构了一个合理的故事而已,并不代表故事是真的。
选对股票的错觉
1984年,特维斯基和我以及另外一个朋友瑟勒 (Richard Thaler) 被美国华尔街一家公司的资深投资经理邀请,去谈偏见在投资上所扮演的角色。我对股票财务这方面懂得很少,我甚至不知该如何去问他问题,但是我记得一个对话:「当你要卖股票的时候,」我问道:「谁来买它?」他朝着窗户大致比了个手势,意思是他预期买者是像他这样的人。这就奇怪了,是什么因素使一个人要卖,而另一个人要买?卖的人凭什么认为他比买的人多知道一点?
从那以后,我对股票市场的问题就慢慢形成一个大的迷团:一个大企业看起来是建构在「技术的错觉」(illusion of skill) 上。每一天几亿股的股票在交换,很多人买,很多人卖。一天中有10亿股票换了手是稀松平常的事,大部分的买主和卖主拥有同样的资讯:他们交换股票主要是因为他们有不同的意见。买者认为这价格低,以后会涨,而卖者觉得现在已经很高了,以后会跌。我不懂的地方是为什么买者和卖者会认为目前的价格是不对的。他们凭什么认为自己比市场更知道这价格应该是多少。对大部分的人而言,这个信念是个错觉。
就它的广义架构来说,股票市场如何运作的理论是圈内人都接受的,每一个投资业的人都读过马基尔 (Burton Malkiel) 的那本好书《漫步华尔街》(A Random Walk Down Wall Street)。马基尔的理论是股票价格是一个公司值多少的所有资讯,以及对这家公司未来最好的预测。假如有人认为这公司的价值明天会高,他们今天就会多买一点。这个信念就会使股票上涨,假如所有资产在市场都被正确定价了,那么交换股票就没有人会赚或赔。完美的定价使得聪明 (cleverness) 没有发挥的空间,但它同时保护了傻瓜,使他们不被自己的愚蠢所愚弄。然而,我们现在知道,这个理论并不太对,许多个人投资者在交易上一直亏损,连投掷飞镖的黑猩猩都做得比人好。第一个做出这个令人惊讶的结论的是加州大学柏克莱校区的财金教授欧丁 (Terry Odean),他曾是我的学生。
欧丁从研究一万个股票帐户在七年之间的交易情形开始,分析一家证券公司每一个投资者所做的交易,总共有163000那么多笔。这个丰富的资料库使欧丁得以找出卖了这个股票又马上去买另一个股票的案例。从这里,投资者显现出他对这两家公司的未来有一定的看法:他预期他买的股票会涨,会比他卖掉的股票表现好。
为了要知道投资者这个信念是否是对的,欧丁比较了投资者卖掉然后去买的这两种股票在交易后一年的表现。结果是明确的糟。平均来说,投资者卖掉的股票比他买的股票表现好3.2%,这是在扣除手续费之后的数字,是个可观的差异。
很重要一点是这是平均数,有些人做得比较好,有些人做得比较差,然而对绝大多数的散户投资者而言,去洗澡、冲个凉,什么都不要做,也比去做出心中想的事要好很多。欧丁和他同事巴伯 (Brad Barber) 后来的研究支持了这个结论。在一篇叫做〈交易对你的财富有害〉(Trading is Hazardous to Your Wealth) 的论文中,他们显示,最活跃的交易者有着最惨的结局,而交易最少的投资者得到最高的报酬。在另外一篇〈男孩永远是男孩〉(Boys Will Be Boys) 的论文显示,男人比女人更会做一些无益的事,因此,女人比男人的投资报酬率好。
当然,每一次交易,都有一个人在交易的另一端。一般来说,这些是金融机构和专业投资者,他们等着散户在选择买这个股票和卖那个股票时犯错,好乘机得利。巴伯和欧丁后来的研究解开了这些错误的原因。散户喜欢在股票一涨时,就赶快卖掉,锁住获利,但是对亏本的股票却守着不卖,期待有一天翻本。很不幸的是,在短期之内,已涨的股票会继续涨,它的表现会比正在亏的好。所以这些散户就卖错了股票,也买错了股票。散户经常蜂拥买进上新闻的公司,专业投资人则对新闻的反应比较有选择性。这就是为什么财务专家称呼自己为「聪明的钱」(smartmoney)。
虽然专业者能从业余者身上赚取很多钱,但是很少人有能力持续击败股票市场,专业投资者(包括基金经理人)都在持续成就 (persistent achievement) 这个最基本的投资技术检验上铩羽而归。我们要看一个人有没有某个能力,是看他能不能持续成就某件事。这个逻辑很简单:假如今年的个别差异完全来自运气,那么投资者和基金的表现就不正常,而每年的相关是零。然而,如果有技术成分在里面,那么排序就会比较稳定。这持续的个别差异就让我们确定高尔夫球员、汽车销售员、牙齿矫正师或是高速公路上动作快速的收费员是有技术的。
基金 (mutual funds) 通常是由很有经验、很努力工作的专业人士在经营,他们为了客户的最大利益在买卖股票。然而,五十年来的研究证据却指出:绝大多数的基金经理人在选择股票时,很像是掷骰子而比较不像在打扑克牌。在任何一年,至少每三个基金中,有两个基金的表现是在市场的水准以下的。
更重要的是,每一年基金绩效之间的相关非常低,仅高于零一点点,某个基金在任何一年的成功都是来自运气。他们骰子掷得好,研究者大多同意,几乎所有的选股者都在赌机率,不管他们自己知不知道,他们其实都在赌运气,而我认为他们大多数不知道自己是如此,还以为自己判断得准。交易者主观的经验是他们是在很大的不确定性中,做出依据专业知识的猜测 (educated guess)。在非常有效率的市场中,依据专业知识的猜测并没有比随便乱猜 (blind guess) 好。
好几年前,我有一个不寻常的机会近距离地检视「理财技术的错觉」。我被邀请去对一个专门替有钱人提供投资建议的大型顾问公司的投资专员演讲。我请他们提供一些数据资料好准备我的演讲,结果他们给了我一个小宝库:二十五名投资顾问连续八年来所做的投资简报。每一个投资顾问在那一年投资绩效决定他那一年的年终奖金。你很容易依他们的投资绩效替他们排出高低序列,然后就可看出他们之间是否有持续性的技术差异,而同一个人是否持续性地每一年的绩效都比别人好,为客户赚到比较多的钱。
为了回答这个问题,我计算了第一年和第二年、第一年和第三年,一直到第七年和第八年之间排序的相关系数,我得到28个相关系数,每一组都有一个。因为我知道理论,所以准备好了去看持续技术的弱证据。我非常惊讶地发现这28个相关的平均是0.01。换句话说,几乎是0。我没有找到代表技术差异的相关,这个结果跟你在掷骰子比赛中所见到的一样,它不是一个技术的比赛,而是运气的比赛。
这个公司中没有一个人觉识到他们选择股票的本质是什么。这些投资顾问都觉得他们自己很能干、很敬业地做一个严肃的工作,他们的上司也都同意。在演讲前一晚,瑟勒和我与这家公司的高层共进晚餐。这些高阶主管就是决定下属要分多少红利的人,我们请他们猜一猜每个投资顾问每年排序的相关,他们微笑地说「不很高」或「表现常有起伏」,因为他们以为猜到我们要说什么。但是没有一个人猜到相关居然是零。
我们对这些执行长的忠告是,至少他们的运气很好,本来应该靠技术来支持的,他们靠运气把公司支持了这么久。这对他们来说本来应该是个大震惊才对,但是他们没有表露出不信任我们的表情,这怎么可能?毕竟我们分析的是他们自己的结果,他们也够专业来看懂相关系数的意思。我们很有礼貌地没有明说出来,很安静地吃我们的晚餐。无疑的,我们的发现和这个发现的意义会马上被扫到地毯底下,然后大家跟以前一样过日子。技术的错觉不只是个别的异样或畸型,它是深深根植于企业文化中,挑战这个基本假设的事实会威胁别人的自尊和生计,所以根本就被忽略,抛至一旁。那些人的心智并不去消化、吸收它。这在绩效的统计研究上特别是如此,这些统计数字提供了基率资讯,但人们通常忽略它,尤其这些资讯跟人们由经验而得来的个人印象相抵触的时候。
第二天早上,我们对这些投资顾问做了报告,他们的反应是同样的平淡。他们对自己在复杂问题上做仔细判断的经验,远大于统计数字带给他们的感觉。我们讲完后,昨夜与我们一起吃饭的一位执行长开车送我去机场。在路上,他有一丝辩护意味地告诉我,「我替这家公司做得很好,没有人可以把功劳从我身上拿掉。」我微笑而不语。但是我在想:「我今天早上已把它从你身上拿走了,假如你的成功大部分是因为运气 (chance),你觉得自己有多大的功劳?」
是什么在支持技术和效度的错觉?
认知错觉常比视觉错觉更顽固,你对慕勒-赖尔的知识并没有改变你看到它的感觉,但是它改变了你的行为。你现在知道不能相信你对长度的印象,你也不能相信你所看到的东西,当被问到这两条线的长度时,你会报告你被告知的信念(它们一样长),而不是你看到的错觉(它们不一样长)。相反的,当我和同事在以色列陆军中学到我们对领导者的预测测验效度很低时,我们在学术上接受了这个事实,但是它对我们的感觉或后来的行动都没有影响,我们在投资公司所遇到的反应更是极端。我确信我和瑟勒带给他们的讯息是即刻被放到记忆最黑暗的角落去,缩在那里,这些讯息不会带给他们任何的伤害。
为什么这些投资者,不论是专业的还是业余的,这么顽固地认为自己会比市场做得好?这个信念其实跟他们接受的经济理论是相抵触的,也跟他们个人投资经验带给他们的教训相反。为什么他们如此执迷不悟?在解释这个普遍又顽强存在的错觉时,前面章节的主题都会再度用到。
这个错觉最强的心理原因是人们认为选股票时,他是运用了非常高明的技术。他们查了经济数据,看了大师对股票市场的预测,并仔细检视这家公司的财务报表,评估最高阶经理人的表现,他们也调查了其他竞争者,这些都是很严肃的工作,需要长久训练才能拥有的,所以这样做的人马上有感觉他在运用他的技术,而这技术是有效度的。很不幸的是,评估一个公司营运的技术并不足以保证股票交易的成功,因为在股票交易上的关键问题是这家公司的资讯有没有表现在股票价格上。交易者显然没有技术去回答这个关键问题,但是他们忽略自己在这方面的无知。就像我在野外观察士兵解决6呎墙的问题一样,交易者主观的自信是一种感觉,不是判断。我们对认知放松的了解和合理性的联结将主观的自信紧紧地深植于系统一中。
最后,效度的错觉和技术的错觉受到了专业文化的强力支持,我们知道人们对任何议题会有不可动摇的信心,不管这议题有多无稽,只要有一群人跟他一样相信,他的信仰就会更加坚定。在投资理财和金融这个专业领域里,很多人都认为他们是少数的菁英,能够做别人不能做的判断。
权威人士的错觉
未来是不可预测的想法被过去是很容易解释的事实所减弱,就如塔里在《黑天鹅效应》一书所说的,人们倾向于对过去编出合理的故事,把它建构成信念,因此我们很难接受自己预测能力是有限的这个事实。从事后诸葛看来,每一件事会发生都有它的道理,每天晚上,财务权威为你分析今天股票市场为什么涨,为什么跌,他们讲得头头是道,我们无法压抑这强有力的直觉。今天这么有道理的事后解释就是昨天的预测,我们对过去的了解使我们以为有能力预测未来,这个过度的自信带来了错觉。
「历史的前进」(march of history) 的影像暗示着秩序和方向,「前进」(march) 这个字就表示它不是散步,不是一般走路,它不是随机的,它是行军,一致性的有规律、有方向的大步走。我们觉得可以依大型社会运动,文化和科技的发展,或少数几个伟人的意图和能力来解释过去。对很多人来说,巨大的历史事件是由机率决定是一个很大的震撼,虽然它是事实。我们很难想像20世纪的历史,包括大型的社会运动,没有希特勒、史达林和毛泽东的角色在里面。但是在卵子受精前的一刹那,那个后来变成希特勒的胚胎可能是女性,将这三个人可能不是他们而是另外一个女性的机率加起来,20世纪有八分之一的机会没有这三个历史罪人,你不可能强辩说,没有这三个坏人,历史还是一样。这三个受精卵造成了巨大的后果,它使长期发展是可预测的想法变成了一个笑话。
然而这个有效预测的错觉仍然纹风不动,丝毫不受影响,这个事实被许多专业预测人拿出来讨论,不只是财经专家,还包括企业和政治的权威人士。电视、广播电台和报纸都有他们自己的专家顾问团,他们的工作就是评论刚发生的事件及预测未来。观众和读者以为这些人有特别管道可以看到我们看不到的讯息,或是他们特别有洞见。无疑的,这些权威人士和他们的支持者真正认为他们有提出伟大的意见和预测。宾州大学心理学教授泰特拉克 (Philip Tetlock) 在一个为期二十年的地标实验中解释了「专家预测」的现象。2005年,他出版了一本书,《专家的政治判断:它有多准?我们怎么知道?》(Expert Political Judgment:How Good Is It? How Can We Know?) 泰特拉克为这个领域未来的讨论设下了条件。
泰特拉克访问了284位以评论时事或经济趋势为生的人。他请他们评估某件事在不久的将来发生的机率,就全世界他们所专精的领域来发表意见,以及就他们比较不那么专业的领域来评估这些事发生的机率。例如,戈巴契夫 (Gorbachev) 会在政变中下台吗?美国会出兵去波斯湾打仗吗?哪一个国家会变成下一个市场的主导者?泰特拉克搜集了8万个预测,他也问这些专家,他们是怎么得出结论的。当他们被证明预测错时,他们的反应是如何,他们如何看待那些不支持他看法的证据。每一个事件他都要求这些专家给出三种结果的可能性机率:持续现状的可能性,比现状好的可能性(例如政治自由和经济成长),或比现状差的可能性。
结果是惨不忍睹。若这些专家直接将这三个可能结果的机率均分,结果都会比他们的预测要来得好。换句话说,这些花时间研究某个题目,借此维生的人,他们的预测能力比丢飞镖的猴子的表现还差,猴子至少还会把它们的选择平均分配给三个可能性。即使在自己的专业领域,这些专家也没有比非专家的表现好到那里去。
这些对预测知道比较多的专家,比知道比较少的稍微好一点。但是那些拥有最多知识的,常常比较不可靠。原因是拥有比较多知识的人发展出一个强大的技术错觉,变成不真实的过度自信,泰特拉克写道:「我们很快就看到,更多的知识已不能带来更好的预测,而且消失是异常地快。在这个学术超级专业分工的时代,我们没有理由支持那些顶尖期刊的投稿者──那些杰出的政治学家、某个领域的专家、经济学家等等,比新闻记者或《纽约时报》的细心读者高明多少。」泰特拉克发现愈有名的预测者,愈会做出眩目的预测。他写道:「愈受欢迎的专家愈自信,他们比聚光灯远处微微自我膨胀的同事的自信心超越太多。」
泰特拉克同时发现,这些专家死不认错,当他们被迫认错时,他们有一大堆借口:他们只有在时间上出错,因为一个不可预料的事件发生,干扰了他原来的计划;或是他可能是错了,但是却有对的原因。其实专家终究也是人,他们只是被自己的光芒蒙蔽而不愿承认错误。泰特拉克认为,专家会误入歧途不是被他们的信念所害,而是被他们怎么想所害。他用柏林 (Isaiah Berlin) 一篇论文中关于托尔斯泰的寓言故事《豪猪和狐狸》(Hedgehog and the Fox) 的术语来说明。豪猪「知道一件大事」,对这个世界有一个理论,他们只能解释一致性合理架构内的某一件事,对他们自己的预测非常自信,他们同样不情愿去承认错误。对豪猪来讲,错误的预测永远「只是时间上差一点」,或「几乎是对的」。他们的个人意见非常强,而且很清楚,所以电视的节目制作人最喜欢他们上节目,两个意见不同的豪猪互相攻击对手的理念会吸引很多观众,让收视率提高。
相反的,狐狸是复杂的思考者,他们不相信大事件会驱动「历史的前进」。例如,他们不太可能接受雷根总统一手结束了冷战,只因他对苏联摆出强硬姿态。狐狸是从许多不同的人和事的互动(包括运气),看到浮现的真相,运气通常导致出乎意料之外的结果。在泰特拉克的研究中,狐狸最后的得分最高,虽然他们的表现还是很差。他们也比较不会像豪猪那样被邀请上电视去辩论。
不是专家的错──这世界太困难了
本章的重点不是指出那些尝试预测未来的专家犯了很多错,这是不用说的。第一个教训是预测错误是不可避免的,因为这个世界是不可预测的。第二是高度的主观自信不可信任,它不是正确率的指标(低自信的讯息量可能还高些)。
短期趋势可以被预测,从以前的行为和成就可以相当正确地预测出不久后的行为和成就,但是我们不能从士兵在野外障碍测试场上的行为去预期军官训练营和战场上的表现。在测试场和在真实世界的行为受到很多情境因素的影响。把八个士兵中最有自信、最自我肯定的人移开,剩下七个人的人格都会改变。让狙击手的子弹移开几公分,军官的表现就会转型。我并没有否定所有测验的效度──假如一个测验有20或30的效度能预测出重要的结果,这个测验就可以用。但是你不应该期望太高。你对华尔街选择股票投资的人没有预期或只有一点预期,这些人通常希望自己对股票未来价格的预测比市场预测准确一点,但是你不要抱太大希望。你也不要对权威人士抱太大希望,以为他们长期的预测会准确,虽然他们可能对不久的将来有正确的卓见,但是对长期预测是不行的。可能预测的未来与不可预测的遥远未来的界线,现在还无法分得清楚。
说到技术的错觉
「他知道记录显示,这种疾病的发展是最不可预测的,他怎么可能表现得这么有自信?听起来像效度的错觉。」
「她有一个完整的故事来解释她所知道的东西,而这故事的合理性使她自我感觉良好。」
「他凭什么认为他比市场聪明?这难道不是技术的错觉?」
「她是豪猪,她用理论来解释所有的事情,这使她产生错觉,以为她了解全世界。」
「问题不是这些专家是否接受过良好的训练,问题在这个世界是否可以预测。」
21 直觉 vs.公式
米尔 (Paul Meehl) 是一个奇特又奇妙的人,是20世纪最多才多艺的心理学家,他曾经做过明尼苏达大学 (University of Minnesota) 心理系、法律系、精神科、神经科,和哲学系的教授,他同时也写过宗教、政治学和生物医学的书。他的统计非常强,对临床心理学空洞论文的批评也不给情面,他同时还是个执业的心理分析师[1] (psychoanalyst)。他所写关于心理学研究的哲学基础的论文,我在当研究生时几乎全背下来,因为写得实在太好了,论点深厚,文字优美[2]。我从来没有机会遇见他,但是从我读他的〈临床vs.统计预测:一个理论的分析前证据的回顾〉(Clinical vs. Statistical Prediction:A Theoretical Analysis and Review of the Evidence) 起,他就是我的英雄。
在他那本薄薄的,被他称之为「令我不安的一本小书」中,他回顾了二十篇论文的结果,他比较基于专业医生的主观印象所得出的「临床预测」,和依据规则所综合起来的分数或等级而得出的「统计预测」,哪一个比较准确。在一个典型的研究中,训练过的辅导员,预测新生在学年结束后的表现,这个辅导员与学生面谈45分钟,他同时也取得学生的高中成绩、好几个性向测验的分数,及四页的自传。在这些资讯中,统计只占很小的部分:高中的成绩和一个性向测验。然而,公式却比14名辅导员中的11名预测正确。米尔在很多其他预测项目中也发现同样的现象,包括违反假释、在飞行员训练中成功,以及再度犯罪。
不惊奇的是,米尔的书震惊了临床心理师,他们愤怒,不敢相信,这个争议性开启了一连串研究的河流,到这篇论文发表五十年后的今天都还在流。比较临床和统计预测的论文已经有二百篇了,但是演算法和人类之间的竞赛分数还是没有变。大约有60%的研究显示,演算法在正确率上显著优于临床师。其他方面的比较在正确率上是相同的,然而,不分轩轾就等于是统计规则赢了,因为它比用专家去判断便宜多了。
预测结果的范围现已扩张到医学的变项,例如癌症病人的寿命、住院要住多久、心脏病的诊断,以及婴儿突发性死亡征候群;经济上的测量(例如新公司成功的机率)、银行的信用风险评估、员工对未来工作的满意度、政府部门感兴趣的问题,包括评估适不适合成为寄养家庭、青少年犯罪的累犯性,及其他形式的暴力行为;还有科学报告的评估、足球比赛的赢家,法国葡萄酒的未来价格。每一个领域都有相当程度的不确定性和不可预测性。我们把它称之为「低效度环境」(low-validity environment)。在每一个个案中,专家的正确率和简单的演算法一样,有时还不如演算法。
就如三十年前米尔在他的书出版后所指出的:在社会科学里,当有这么多性质不同的实验都一致指向同一方向时,这是没有争辩的余地的。他的骄傲是有道理的,殊途同归是最强的证据。
普林斯顿经济学家和酒的行家艾沈费尔特 (Orley Ashenfelter) 提供了一个令人信服的展示,来说明简单的统计是胜过世界有名的专家。艾沈费尔特想要预测上等波尔多 (Bordeaux) 葡萄酒的未来价格,但他手边仅有酒的制造年份。这个问题很重要,因为酒要很多年才会成熟到最好的顶峰。同一葡萄园酿出来的酒会因装瓶时间不同而有巨大的价格差异,只差十二个月的装瓶时间,价格可以差到10倍以上。因此能预测酒的价格就变得非常重要,投资者买酒就像收藏艺术品一样,预期它的价格会涨。
品酒的人一般都同意,酒的品质只受到葡萄成长期间和气候的影响(这是假设酿酒技术不变),最好的酒是出自温暖又干燥的夏天所长出来的葡萄,所以地球暖化对波尔多制酒业是有利的。但是春天的潮湿也很重要,因为它会增加葡萄的量而不会影响葡萄的品质。艾沈费尔特把民间的制酒知识转换为公式,来预测酒的价钱。他针对某一个葡萄园、某一年份的酒,采用三个气候变项:夏天生长季节的平均温度、收成时的雨量,以及前一年冬天的总雨量。他的公式提供了正确的价格预测,不但可以预测未来好几年,甚至预测未来好几十年。的确,他的公式预测未来的价格比目前新酒价格更准确。这个「米尔型态」(Meehl pattern) 的新例子挑战了专家的能力,这些专家不是别人,正是塑造先前价格的那一批人。它同时也挑战了经济学的理论,因为理论说价格应该反映所有的资讯,包括气候在内。艾沈费尔特的公式非常的准确──他的预测和实际价格之间的相关是.90以上[3]。
为什么专家会输给演算法?米尔认为其中一个理由是专家想耍聪明,考虑范围超越了变数的范围,太复杂就失去了准头。复杂度在特殊个案中可能有效,但是常常得不偿失,失去了效度,把因素简单综合起来考虑有时效果更好。好几个研究显示,人类做决策时输给了公式,即使人类拿到公式算出来的数据,建议应该怎么做,人类的决策还是不及公式,人类还是觉得可以推翻公式,因为他们有更多资讯。但是人类常常是错的,那些资讯可能毫不相干。米尔认为只有在很少的情况,你应该用你的判断去替代公式的判断。在一个有名的思考实验中,他预测某一个人今晚会不会去看电影。他说,假如更多讯息进来显示这个人今天跌断了腿,那么这时可以不管公式怎么说。所以,就有这个「跌断了腿」(broken-leg rule) 的规则出来。重点是,跌断了腿的情况很少发生。
另一个专家不及公式的原因是人们从复杂的资讯中,做出总结判断常常是不可救药的不一致。当我们请同一个人评估同一个讯息两次时,常常得出不一样的答案,这个不一致性有时会出人命。一个有经验的放射科医生在看同样的胸部X光片,判断「正常」和「不正常」的抵触率为20%。有一个研究请了101位独立查帐会计师去评估企业内部稽核的信度,也有同样20%的不一致性。检视41个不同研究对查帐会计师、病理学家、心理学家、企业经理和其他专家判断信度的评估,发现不一致性的程度很普遍,即使同一个案子在几分钟内再评估一遍,出来的答案也不一样。一个没有信度的判断是不可能成为任何东西的有效预测。
这个不一致的普遍性可能是来自系统一极端的仰赖内容。我们从促发效应的研究中知道,在环境中,没有被注意到的刺激对我们的思想和行为也会有很大的影响,这个影响是每一分钟都在变动的。在炎热的夏天,一阵凉风吹过会使你比较正向、乐观一点,这时,你对正在评估的东西分数就会高一点。在前面提过,犯人会不会被假释跟审查者上一次进食的时间有关系。因为你其实不知道大脑在做什么,所以你永远不知道在稍微一点点不同的环境中,你会做出不同的判断或决定。公式就没有这个问题。输入同样的资讯,会有同样的答案出来。当预测度很低时──在米尔和后来的学者所做的文献回顾中,发现这情形很普遍──不一致的判断会破坏任何预测的效度。
这个研究有一个非常令人惊异的结论:为了要达到最大预测正确度,最后的决定应该留给公式去做,尤其在低效度情境下。医学院的入学许可评估,最后的决定权都在面试过学生的教授身上。这个证据现在还很片断、不完整,但是猜测的成份却是毋庸置疑的:面试会减少选择程序的正确性,假如面试者也是最后决定入学与否的人。因为面试者常对他们的直觉过度自信,会把太多的决定份量加在自己对那个学生的印象上,太少份量放在其他讯息上,所以变成低效度的情境。同样的,专家去评估一个还没有成熟的葡萄酒,预测它未来的价格,他手边的讯息几乎一定使这酒被评得更糟而不是更好:他们可以品尝这个酒。此外,当然,即使他们很了解气候对酒的效度,他们也不可能像公式一样,维持一致性。
自从米尔开创了这个领域之后,最重要的发展是道斯那篇著名的论文:〈决策制定中不恰当线性模式的强势美〉(The Robust Beauty of Improper Linear Models in Decision Making)。在社会科学中,统计的运用方式是将不同份量派给不同的预测者,它所依据的是「多重回归」(multiple regression) 的演算规则,现在已有套装软体程式,学生只要一套即可运算[4]。多重回归的逻辑是无懈可击:它找到最好的公式把预测的变数施以不同的份量,组合在一起。然而道斯观察到,复杂的统计运算规则没有增加什么价值,甚至一点价值也没增加。如果你选择一组有预测效力的分数,调整它们的价值使它们可以比较(用标准分数或排序的方法),你也可以得到同样好的结果。把同样重要的预测变项组合在一起的公式,跟用多重回归去跑原始样本所得出的最佳预测力,在预测一个新个案时,效果一样好,一样正确。最近很多研究又更进了一步,那些派给所有预测变项同样权重的公式常常预测得更好,因为它们不受取样意外的影响。
这个同等权重方法惊人的成功在实务应用上很重要。现在可以在没有任何先前统计研究的情况下,发展出有效的演算法。根据现行统计学或普通常识所订出来简单的同等权重公式,常常是显著结果非常好的预测指标。在一个广为人知的例子中,道斯显示婚姻的稳定性可以用一个公式来预测:
做爱次数减去吵架次数
只要答案不是负数,婚姻就没问题。
从这研究得出的重要结论是:在信封背后所计算出的答案,常常跟最佳权重分派公式所得出的结果一样好,而且绝对比专家的判断更好[5]。这个逻辑可以应用到很多领域上,从选择股票到选择医疗方式。
这个方法的经典应用是一个曾经救过千百名婴儿的简单计算公式。妇产科医生都知道,婴儿如果在生下来几分钟内不能自行呼吸,他的大脑会受损或甚至死亡。直到1953年,麻醉医生艾卜嘉 (Virginia Apgar) 介入,医生和助产士通常都是以临床判断来决定这婴儿是否有麻烦。不同的医生注意到不同的线索,有人看呼吸问题,有人看婴儿多久才哭。当没有标准程序时,许多征象被忽略,许多新生儿就死了。
有一天,在吃早饭时,一位驻院医生问艾卜嘉如何制定出一套有系统的检验法来测试婴儿有无任何困难。艾卜嘉说,「那很简单,你可以这样做」,她随手写下五个变项(心跳率、呼吸、反射反应、肌肉张力和颜色),再加上三个分数(0、1、2代表变项的强度)。艾卜嘉了解到她可能替产房找到一个新的有用方式,她便在婴儿出生1分钟之后,依据这五个变项开始评估婴儿的表现。总分8分以上的婴儿,他的肤色较可能是粉红色、大声啼哭、充满活动力、脉博在100以上,情况良好的婴儿。假如分数在4分以下,这个婴儿可能肤色偏蓝、被动、脉博低、肌肉松驰没有弹性,需要立即的医疗救援。产房的医疗人员用艾卜嘉的分数,终于有了一致性的标准来决定哪一个宝宝有问题,这个公式被认为救了许多婴儿的性命。直到现在,艾卜嘉的测验仍然每天在每个产房被使用。葛文德 (Atul Gawande) 近期出版的《检查表:不犯错的秘密武器》(The Checklist Manifesto) 提供了许多这种清单和规则好处的例子。
对演算法的敌意
从最开始,临床心理学家对米尔的看法就充满了敌意和不相信。显然他们深信自己有预测长期效果的能力,也就是说,陷在技术错觉中而不自知。现在回头想想,我们很容易看到这个错觉为什么会产生,也能了解为什么那些临床师会抵抗,不接受米尔的研究。
临床判断比统计预测差的证据,跟临床师自己每天的经验相抵触,他们觉得自己的判断很有品质。跟病人一起工作的心理学家在治疗过程中,常有很多直觉,他预期病人会对某治疗法有反应,也猜测下一步会发生什么事。许多直觉后来被证实是对的,显示了临床技术的真实性。
问题在于这些都是在临床面谈时短期的预测,治疗师在经过很多年的练习后发展出来的,他们失败的其实是对病人以后会怎样的长期预测。这是件很困难的工作,即使是最好的公式也只能做到中等程度,何况还有些是临床师从来没有机会练习或学习的。有些等很多年才会有回馈出现,不像在临床面谈时,马上有回馈。然而,他们能做得很好和不能做得很好的界线在哪里,并不清楚,当然他们自己更是不清楚(所谓当局着迷)。他们知道自己是有技术的,但是他们并不见得知道自己技术的限制在哪里。这些有经验的临床师觉得自己竟然被一个机械地组合几个变项赶过去,太不可思议了,所以他们完全不接受米尔的说法。
这个临床和统计预测的辩论还有道德成份在里面。米尔写道,统计的方式被有经验的临床师批评为「机械的、自动化的、人工的、不真实的、武断的、不完整的、死板的,片断的、迂腐的、微不足道的、强迫的、静态的、表面的、僵化的、伪科学的、学术性的,盲目的。」从另一方面来说,临床的方式是「动态的、整体性的、有意义的、全面性的、细腻的、同情的、有组织的、丰富的、深沉的、纯正的、敏感的、真实的、生活上的、具体的、自然的,了解的。」
这个态度我们都可以理解,当人与机器竞争,不论它是约翰.亨利的铁锤[6] (John Henry's hammer) 或是西洋棋天才卡斯帕罗夫 (Garry Kasparov) 跟电脑深蓝 (Deep Blue) 比赛,我们的同情心都在同胞这边。我们对用演算做决策再应用到人身上的厌恶与反感,是深深根植在我们对自然的强烈偏好上,我们不喜欢合成或人工的东西[7]。当问人们他们喜欢吃有机苹果还是商业化栽培出来的苹果时,大部分的人偏好「全天然」(all natural) 的苹果。即使告诉人们,两种苹果的味道一模一样,有同样的营养价值,也都很健康,大部分的人还是偏好天然的有机水果。甚至连啤酒的制造商都发现,他们只要把「全天然」、「没有添加防腐剂」放在商标上,啤酒就能卖得比较好。
照说,研究者解开了权威判断之谜,应该广受各行业的欢迎才对,但事实不然。从欧洲制酒业对艾沈费尔特公式的反应,可以看出人们是如何抵制这个预测波尔多酒价格的公式。艾沈费尔特的公式回应了人民的祈祷,你以为全世界爱酒人士都会因为艾沈费尔特增进他们辨认好酒、投资好酒的能力,而对他感恩不已,但是《纽约时报》报导法国酿酒业者的反应「从暴力到歇斯底里都有」。艾沈费尔特说,有位品酒专家把他的发现称之为「可笑、无稽」,另一位则骂他说,「就好像没有看过这部电影却去评论它。」
对演算的偏见在会带来很大后果的决策时,更加激烈。米尔说:「我不太知道该怎么缓和地说出有些临床师经验到的恐怖──当他们设想一个可以治疗的病例因为一个『没有眼睛的机械公式』把病人错误分类,而拒绝治疗。」相反的,米尔和其他赞同演算法的人,强烈支持演算法,他们说只依赖直觉来做重要决策的判断是不合伦理的,假如有一个演算法可供使用就应该要用,因为它的错误会比较少。他们的理性论点很有说服力,但是它碰上顽强的心理学真实性:对大多数人来说,造成错误的原因是有关系的。「一个孩子快要死掉了,因为演算法犯了错误」,这个故事比人为的错误还要刺激。情绪上强度的差异是马上可以转换到道德上去的。
幸运的是,对演算法的敌意可能渐渐会软化,因为演算法在我们生活上扮演的角色愈来愈多样化。当寻找我们可能会喜欢的书籍或音乐时,我们会感谢软体提供的推荐。我们对信用卡上限由电脑决定而不是由人来判断已经习以为常了。我们也愈来愈能接受简单演算给我们的指示,例如:好胆固醇和坏胆固醇的比例。现在一般老百姓已经接受在某些体育项目中,关键性的决策是电脑做得比人脑好:职业球队应该付多少钱给新进球员,或在足球赛第四次进攻时,是否要把球踢给对方 (punt)。电脑演算法可以做的作业已经大大扩张,终有一天,它会减少人对机器做决定感受到的不舒服、不自在。五十年前,米尔那本小书出版时,人们所感受到的不自然,在电脑演算法充斥着我们生活的现代,应该会减少了。
从米尔学到的东西
1955年时我21岁,是个在以色列陆军服役的少尉军官,我被指派去建立一个用来面试整个陆军士兵的面试系统。假如你觉得奇怪,这么大的责任怎么会赋予这么年轻的人,请记住,那时的以色列才建国七年,所有机构都还在建构中,需要有人去建构它。在今天看起来很奇怪,但是在当时,大学心理系的学士学位可能使我成为全陆军中受过最好训练、最有资格的心理学家。我的顶头上司是个非常聪明的研究者,他是化学学士。
在我接到这个任务时,已经有了面试的例行公式,每一个被征召到陆军的士兵要填写一份心理计量问卷 (psychometric test),每一个要上战场的士兵都要经过人格测验的评估。目的是给新兵一个分数,看他适不适合上战场,也尽量找到适合他在军中的位置:看他应该是步兵、炮兵、装甲兵等等。面试官本身也是年轻的大头兵,因为他们智商高、喜欢跟人在一起而被选上。面试官大部分是女生,因为那时女生还不需要上战场。经过几个礼拜的训练后,她们便学会做15-20分钟的面谈了。我们鼓励她们问各种问题,包括的范围很广,请她们尽量对每一个新兵形成一个印象,看他们是最适合做步兵、炮兵还是什么兵。
很不幸的是,后续的追踪显示,这个面试程序几乎完全没有用,它无法预测一个新兵在军中的表现是否会成功。我被指示去设计一个比较有用的面试程序,但是不能比原来的花更多时间。他们要我试新的面试方法,而且要评估它的正确率。从专业角度看来,我做这件事并没有比叫我去盖一座横跨亚马逊河的桥更有资格。
很幸运的是,我读了米尔的书,这本小书在前一年出版了。我很被他的论点所说服,一些简单的统计规则绝对比直觉的临床判断更好。我下结论说,以前的面试失败,部分原因是他们允许面试官依她们最感兴趣的部分提问,这是去发掘被面试者的心智生活。我们应该利用有限的时间得出被面试者在正常环境中的某些特定讯息。另一个我从米尔书中学来的是我们不要让面试官做最后的决定。米尔的书认为,不可相信人去做最后的评估决定,因为人为评估没有一致性,要让各个小测验的统计结论来做最后的决定。
所以我决定让面试官去评估好几个相关的人格特质,给它分数,再依公式算出最后成绩,看这个新兵适不适合上战场。套入公式后,面试官就不能再有任何个人意见了。我拟了六个跟战场表现有关的人格特质,包括「责任感」、「合群性」、「男性的骄傲」。我再为每一个人格特质设计出一序列的事实描述性问题,这些问题跟他还没有被征召之前的个人生活有关,例如:当兵前做过几个工作,他在工作或念书时有多规律和守时,他跟朋友互动有多热络,他对什么运动有兴趣等等。我的想法是找出这个新兵在每一个向度上,表现得有多好。
我希望聚焦在标准化、跟事实有关的问题上,借此避开月晕效应;也就是说,一开始的好印象会影响后来的判断。为了更进一步防止月晕效应,我告诉面试官,依序完成六个人格特质的问题,给每一个特质五点量表的分数,做完后才可以进行下一个。面试官不需要去管新兵未来在军中适应得如何,她们的工作就是找出这个人过去相关的事实,替每一个人格面向打分数。我告诉她们:「你的功能就是提供可靠的测量,把所有效度预测留给我来处理。」我的意思是说我会用公式把她们在每一项给的分数综合起来看。
这些面试官差一点就叛变 (mutiny) 了。这些聪明的年轻人很不高兴被一个没有比她们大多少的人下命令,把她们的直觉关掉,全面聚焦在发掘事实真相的无聊问题上。她们之中有人抱怨说:「你把我们变成机器人了。」所以后来我妥协。「按照指示执行你们的任务,当你完成后,闭上眼睛,想像这个人是个士兵,然后在1到5的量表上,给他一个分数。」
我们用这个方法面试了几百个人,几个月以后,我们从他们单位的长官手上搜集到他们在该单位表现的评估单。结果令我们很开心。就如米尔书中所说的,新的面试方式大大改进了旧的效度。我们六项分数的总和可以很正确地预测出士兵在军中的表现,比过去面试整体印象的方式好太多了,虽然还离完美很远,我们从「完全没有用」进步到了「稍稍有一点用」。
我很惊讶的是,面试官最后闭上眼睛所给的直觉判断分数也很有预测力,跟六项人格分数的总和预测力一样好。我从这里学到一个我永远不会忘记的教训:直觉是有价值的,但只有在有纪律地搜集客观讯息而且有纪律地给各个人格特质分数之后。我设计了一个公式,给「闭上你的眼睛」的评估同样的权重,使它和六项人格评分的总和一样重要。从这个事件我还学到,不要相信直觉的判断,不管是你的还是别人的,但是也不要把它丢开。
四十五年以后,在我得到诺贝尔奖时,我在以色列有一阵子是个名人。有一次我回去以色列,有人带我回到我以前当兵的军队营区,他们还是在那里面试新征召进来的新兵。他们把我介绍给心理单位的长官,并介绍她们目前如何面试。她们的方法从我当年设计到现在,没有什么改变。原来有许多研究发现这个面试方法很好用,所以一直保留到现在。在快要结束简报时她说,「于是,我们告诉她们,闭上妳的眼睛。」
自己动手做
本章讯息是立即可以应用到很多的作业上,并不是只有替陆军做人力的决定。用米尔和道斯的精神去设计面试需要一点的努力和很高的纪律。假设你需要为公司雇用一个销售员,假如你真的想雇用一个最适合这个工作的销售员,下面就是你该做的。第一步,选择几个人格特质,它是在这位置上,如果要成功必须要俱备的(例如,技术纯熟、和颜悦色、可以与人相处、值得信赖等等),不要太多──六个面向就足够了。你所选的人格特质尽量具有独立性,不要和别的人格特质牵扯在一起。你要能从几个简单的相关事实的问题中,得出可信赖的评估。下一步是替这些人格设计出一些问题,然后去想从一个1到5的量表上怎么给分。你要对什么叫叫非常弱,什么是非常强的项目有概念。
这些准备大约半个小时就足够了,对你来说,它是一个小投资,因为你可以从它找到你想雇用的人,它会使你在找到的人身上看到显著的品质差异。为了避免月晕效应,你必须每次只搜集一个人格特质,评分后再进入下一个人格特质。不要跳着做,把六个面向的分数加起来,这就是你对这个人的总成绩。因为你自己就是最后下决定的人,所以你不要「闭上你的眼睛」。假如这个人的分数是最高的,你就应该雇用他,即使有另外一个你比较喜欢的人,你要抵抗自己「跌断一条腿」的愿望去改变排序。有很多研究可以给你信心,你知道这样做是对的:你比较可能找到最好的人,因为研究告诉你,用这个方法找出来的人远优于其他的方式。所谓其他的方式就是毫无准备就去面试,然后凭着直觉的判断,「我看着他的眼睛,我喜欢我所看到东西」来做选择。
说到判断vs.公式
「当我们可以用公式来替代人为判断时,我们应该这样做。」
「他认为他的判断是很复杂和精致的,但是简单把分数加起来所得的结果可能比他好。」
「让我们先来决定一下我们要给这些候选人过去的表现多少的权重,不然我们会对面试的印象给予太多的权重。」
- 在台湾心理分析师和临床心理师 (clinical psychologist) 很多人搞不清楚,以为他们是一样的。其实在国外,临床心理学是心理系毕业,考了个证照就可以当,但心理分析却是精神科的一个支派,要医学院毕业。他是正规的医生,可以开药的,临床心理师不行)。

- 我在美国念博士时,米尔的论文是所有心理系研究生,不分领域必读的。

- 相关系数在0与1之间,.90非常高。

- 在我念书时,这是用手算,所以你知道多重回归的来龙去脉,对数据有信心。现在学生用套装软体,对回归的概念都不清楚就在用了,有时快速得出结果的代价是不知道这结果是什么意思。

- 信封背后计算出来的答案指的是1965年诺贝尔奖得主Richard P. Feynman在厨房桌子上,信封背后所计算出来的公式,这个公式使他拿到诺贝尔奖。

- 美国的民间故事,一个高大有力气的黑人,替铁路公司开山洞,后来老板要用蒸气的铁锤来取代人工时,他挺身而出,与机器竞赛,虽然他赢了,却也力竭而死。

- 尤其经过塑化剂事件后,台湾现在更是崇尚自然,一听说是人工合成的食物,再美味都退避三舍。

22 专家的直觉:我们什么时候可以信任它?
专业的争论带出学术界最黑暗的一面,科学期刊偶尔会刊出一些意见的交换,通常是从一个人批评另一个人的研究开始,然后是这个人的答辩、反驳。双方交锋不绝,没完没了。我一直认为这是在浪费时间,尤其是第一个人的批评言词尖锐,那么回答、反驳就会很讽刺,言词变得愈来愈火爆。这些答辩很少承认对方的批评是有道理的,也从来不曾听过反驳的人承认最初的批评文章是被误导或是在某些地方犯了错。在少数几个情形,我有针对我认为被严重误导的批评者做回应,因为不回答会被人解释为隐藏错误,但是我从来没有发现有敌意的「交换意见」有任何建构性,或是可以从中学到什么。在寻找另外的方法来消除异见时,我采用「对抗合作」(adversarial collaboration) 的方式──两个在科学上意见相左的人共同写一篇论文,把他们的不同观点讲出来,有时共同做一个实验。在特别紧绷的情况下,这个研究需由第三者(所谓的仲裁人)来监督进行。
我最满意也最有收获的对抗合作是与克莱恩,他是临床师,也是一个协会的领导人,他不喜欢我做的研究。他们自称为「自然决策制定」(Naturalistic Decision Making, NDM)的学生,专门研究专家是怎么运作的,他们坚决反对聚焦在捷径偏见和偏见的处理方式上。他们批评这个模式是只注意到失败,这些是人工、不自然的实验,而不是研究真人真事,他们对于用严谨的演算法去取代人的判断抱持很深的怀疑态度。米尔当然不是他们的英雄,克莱恩多年来一直保持他的立场。
这完全不是美好友谊的基础,但是故事还没有结束。我从来没有认为直觉就一定不对。因为他那篇消防队长的专家研究,我一直是克莱恩的粉丝,我是在1970年代读到他那篇文章,后来又读到他写的《权力的来源》。在书中,他分析有经验的专家如何发展出直觉的技术。我邀请他来一起做实验,找出区分好直觉和坏直觉的界线。他受到这个点子的吸引,于是我们就开始这个专案──我们完全不确定会不会成功。我们设计好一个特定问题:你什么时候可以相信一个宣称有直觉的专家?你可以很明显看到克莱恩比较倾向于信任,而我是比较怀疑的,我们可以在回答这个问题的原则上取得同意吗?
在这之后的七八年间,我们有很多的讨论,解决了很多异同点,好几次几乎翻脸,写了许多草稿,变成朋友,最后终于共同发表了一篇论文,题目叫做〈直觉专家的条件:未能达成不同意〉(Conditions for Intuitive Expertise:A Failure to Disagree)。这题目就说明了整个故事,的确,我们并没有碰到我们真正不同意的问题,只是我们也没有真正达成一致。
专家的魔术与缺陷
葛拉威尔 (Malcolm Gladwell) 那本畅销书《决断2秒间》(Blink) 出版时,正是我和克莱恩在做这个专案的时候,因为我们两人对这本书看法相同,令我们精神大振。葛拉威尔在这本书一开头就讲了一个令人难忘的故事,一些艺术鉴赏家对一个被形容为杰作的「行走中的男童」雕像进行鉴定,好几个专家都有强烈的内脏反应[1],觉得这个雕像是假的,但又说不出假在那里,这使得他们很不舒服。每一个读过这本书的人──这本书卖了几百万册──都记得这个故事是直觉的胜利。专家们知道这个雕像是假的,但是说不出他们是怎么知道的,这正是直觉的定义。这个故事似乎是在说,他们系统化地找线索最后失败了。但是克莱恩和我都反对这个结论。从我们的观点,每一步的搜寻都是必须的,假如执行得很正确的话(克莱恩知道怎么做),它应该会成功。
虽然许多读者会被书中几乎魔术般的专家直觉所吸引,葛拉威尔本身却不相信直觉,在后面的章节里,他描述了直觉的大失败:美国总统哈丁 (Harding) 符合做总统的唯一条件,就是他看起来非常像个总统。他有方下巴,长得很高,像个强有力的领导者,美国人民投给最像强有力领导者的人,却没有去想一想他是否真的是强有力的领导者,这本书的读者都很自信的认为这个直觉就应该是对的。
直觉是辨识
克莱恩形成直觉看法的早期经验跟我的经验非常不同,我的思想是透过观察自己效度的错觉和阅读米尔的书所形成的,米尔在书中呈现了临床预测的缺失;相反的,克莱恩的看法是来自他早期对消防队队长的研究所形成的,他跟他们一起出勤去救火,然后跟小队长面谈,问他们在做决定时,心里在想什么。克莱恩在我们合写的论文中描述:
我在调查小队长如何能做出好决策而没有去比较其他可能性。我最开始的假设是小队长把他的分析限制在两个可能性之内,但是这个假设后来被证实是错的。事实上,小队长一般只有一个选择性,这对他们来说就够了,这正是他们要的。他们从脑海中搜寻过去十年来真实和虚拟情境中的行为经验,来指认出可能的选择,这是他们第一个想到的,然后他们在脑海中模拟这个方法在目前情境中是否行得通。假如可以,他们就会付诸行动,假如这个方法有缺点,他们会修改它,假如他们不能修改它,他们会去看下一个最有可能的选择,再重新走一遍流程,直到可行的方法出现为止。
克莱恩把这段描述变成一个决策制定理论,称之为「辨识促发的决定」(Recognition-Primed Decision) 模式,它可以应用到消防队员身上,也适用于西洋棋等其他领域的专家。这个历程动用到系统一和系统二。在第一阶段中,一个可能的计划来到心中,这是系统一联结记忆自动化的功能。下一步是一个刻意的历程,在心智中模拟,来看看它是否能运用在现在这个情境中──这是系统二的操作。直觉决策制定模式是型态辨识 (pattern recognition),许多年前赛蒙所设计的,赛蒙可能是唯一被决策制度领域所认同并被奉为英雄的人,因为赛蒙是现在研究决策制定各个支派的始祖。我在本书前言引用了赛蒙对直觉的定义,但是我现在再重复一次,因为这次对你的意义应该更清楚了。「情境提供了一个线索,这线索给专家从记忆中提取讯息的入口,这个讯息提供了答案。直觉就是辨识,不多也不少。」
这个强烈的定义减少了直觉明显的魔力,把它贬为每一天记忆的经验。我们对于消防队队长能马上叫所有队员撤出燃烧的房子感到惊叹,因为房子马上要垮掉了,他有消防队员的危险直觉,但「不知道他是如何得知的」。然而,我们也不知道自己如何立刻知道进来房间的人就是我们的朋友彼得。赛蒙的重点在于「知道,但不怎么知道的」的神秘,并不是直觉独特的特质,它是我们心智生活的常态。
习得技术
直觉的讯息是如何储存在我们的记忆中的呢?某些直觉很快就学会,我们从祖先身上继承了学习什么时候应该害怕的能力。的确,一次经验就足以建立长期的厌恶和恐惧。很多人都有对某一道菜的肠胃记忆,使我们很不愿再回到那家餐馆去。当我们接近不愉快事件的发生点时,肌肉都会紧张起来。对我来说,要到旧金山机场的匝道就是这种地方。多年前,一个愤怒的驾驶人在高速公路上跟着我下匝道,摇下他的车窗,对我骂了一堆脏话,我到现在还不知道他为什么这么愤怒,但是只要我一接近那个地方,我就想起他的声音。
这个机场事件的记忆是有意识的,它完全解释了我在这个事件中的情绪,然而,有很多时候,你觉得在某个地方特别感到不自在,或有人讲了什么话使你不舒服,而你无法有意识地解释你为什么觉得不自在、不舒服。假如它后面跟着不好的经验,你会把这些不自在贴上直觉的标签[2]。这种情绪的学习跟巴夫洛夫 (Ivan Pavlov) 的制约实验非常相似,在制约的实验中,一只狗学会去辨认铃声,当铃声响,就表示有东西可吃,巴夫洛夫的狗学到的可以说是希望,习得的恐惧是更快就学会。
恐惧也是可以学会的──事实上,非常容易──不需亲身经历,透过语言文字即能学到。对危险有第六感的消防队员一定有很多场合可以讨论或思考他不在场的那些救火经验,在他心中重复学习线索应该是什么,他应该怎么反应。我记得有一个年轻的排长,在带领士兵经过一个很窄的山沟时,全身都紧张起来,因为他学过这种地形就是最容易发生突袭的地形,恐惧学习根本不必重复。
情绪的学习可能很快,但是专家通常需要很长时间的培养才会出现,要在一个复杂的作业中变成专家(例如西洋棋、职业篮球员,或消防队员)是很慢的,因为这些领域需要的不只是单一技术,而是很多小技术的综合体。西洋棋是最好的例子,大师只要看一眼就立刻了解棋下到什么地步,但是这需要很多年的苦功。针对西洋棋大师的研究显示,至少要1万个小时的练习才能拥有这种功力(即是一天下5个小时的棋,连下六年)。在这些练习的时间中,他们需要完全的注意力、熟悉所有棋路、背下无数的棋谱,才有可能脱颖而出成为名人。
学习棋道可以和学习阅读相比。一年级的小朋友,很辛苦地辨认字母,才能把它们组合成音节和字,但是一个好的成年读者,只需看一眼整个句子就够了。有经验的读者可以把熟悉的元素组合起来,马上正确念出一个她从来没有看过的字。在西洋棋中,重复出现的棋路就像字母一样,而棋谱就像一个很长的字或句子。
有经验的读者第一次看到就能读出卡洛 (Lewis Carroll) 的〈无聊诗〉(Jabberwocky) 中无意义的字[3],她不但读得出来,还会押韵,有语调,还读得很高兴:
Twas brillig,and the slithy toves
Did gyre and gimble in the wabe:
All mimsy were the borogoves,
And the mome raths outgrabe.
变成西洋棋大师比学习阅读更难,更花时间,因为棋盘上的「字」包含了许多字母。在几千个小时的练习后,西洋棋大师能够一眼看出棋局,进入他们心中的几个棋路几乎都很强而且有时很有创意,他们可以处理从来没有看过的「字」,也可以找出新的方式来解释旧的、熟悉的「字」。
技术的环境
克莱恩和我很快就发现我们两人都同意直觉技术的本质,以及这技术怎么学来的。我们需要在关键问题上取得共识:你什么时候可以信任自信满满的专业人士的直觉?
我们最后的结论是,我们意见不同的部分原因是在我们心中的专家是不同的。克莱恩花很多时间在救火现场跟消防队队长,在医院中跟临床的护士和其他有真正专业的专业人士访谈。我花了很多时间在思考临床师、股票经纪人及政治家想要做出长期预测却都没有成功。所以不令人意外,他的事先设定 (default) 的态度是信任和尊敬,而我的态度是怀疑。他比较愿意相信那些宣称自己有直觉的专家,因为他告诉我,真正的专家知道他们知识的上限。我认为有很多假的专家他们根本不知道自己不知道什么,也不知道自己在做什么(这正是效度的错觉),所以主观的自信太高而且常常是没有根据的。
早先,我曾追踪人们的自信来自两个相关的印象:认知放松和一致性。当我们跟自己说的故事很容易进入我们心中而且没有相抵触时,我们很有自信。但是轻松和一致性并不保证有自信的信念是真的。联结机制本来是设定好去压抑怀疑,激发跟目前故事一致、相容的讯息。跟随着WYSIATI的心智可以很轻松达成很高的自信,因为它忽略了它所不知道的东西。所以,许多人倾向于对没有根据的直觉有很高的自信。克莱恩和我最后同意一个重要的原则:人们对他直觉的自信不是一个可靠的效度指引,换句话说,不要相信任何告诉你应该多么信任他的判断的人,包括你自己。
假如你不能相信主观的判断,我们如何评估主观判断的效度?判断什么时候可以反映真正的专业?什么时候会出现效度错觉?答案来自两个习得技术的基本条件:
- 一个很规则,可以被预测的环境。
- 一个从长久的练习中,习得这些规律的机会。
当这两个条件都能被满足时,这个直觉就是一个技术直觉了。西洋棋是规律环境非常好的例子。桥牌和扑克牌也提供了统计上足以支持技术的规律。医生、护士、运动员和消防队员也是面对复杂、但基本上有秩序的情境。克莱恩所描述的正确直觉是来自于高效度专业系统一已经学会用的线索,即使系统二还没有学会去命名都没有关系。相反的,股票经纪人或政治学家的长期预测是在一个零效度的环境中,他们的失败反映出他们尝试要预测一个基本上不可预测的事件。
有些环境比不规律还更差,何嘉斯 (Robin Hogarth) 描述了一个「邪恶」的环境,在那种环境里,专业人士其实会从经验中学到错误的教训,他借用汤玛士 (Lewis Thomas) 20世纪初一个医生的例子,这个医生常常直觉病人快要得伤寒。很不幸的是,医生在检查病人的舌头时,没有洗手,他也不习惯在看下一个病人前洗手,因此,被他检查过的病人果然得了伤寒,这就更增加了他的信心,他的直觉是对的。其实他的直觉是错的,他自己才是病菌的传播者,被他碰过的病人都被他传染了。
米尔的临床师并不是无能,他们的失败也不是能力不好,表现不好是因为他们被指派的工作没有简单的解决方式。临床师的困境比政治长期预测零效度的环境好一点,但是他们是在一个低效度的情境,那是不可能出现高正确率的。我们现在知道是这样了,因为最好的统计演算法,虽然比人的判断准确,也不是非常准确。的确,米尔的研究从来不能有「现行犯」(smoking gun) 的情形──临床师完全没看到非常有效度的线索,而演算法侦察到了。像这种极端的例子是没有的,因为人类的学习一般来说是有效率的。假如有很强、可预测的线索存在,观察者还是会找到,只要你给他公平的机会去做。统计的演算法在吵杂的环境下,会比人类的表现好很多,这有两个原因:演算法比人类容易发现弱的线索,也更容易一致性地运用这些弱线索维持低度的正确率。
在一个不可预测的世界去责怪别人未能正确的预测未来是不对的。然而,责怪专业人士(因为他们相信自己能成功做到一件不可能的事)却觉得很公平。在一个不可预测的环境宣称自己有正确的直觉,充其量来说,也是自我妄想 (self-delusional),有的时候更糟。在缺乏有效线索的情况下,直觉的「命中」,有可能是由于运气,另一个可能就是说谎。假如你认为这个结论很令你惊讶,你对直觉的魔力还存有藕断丝连的信念,请记得这个规则:在没有稳定规律的环境中,千万不可相信直觉。
回馈和练习
有些环境的规律很容易发现,也容易应用。请想一想,你如何发展出踩刹车的习惯,当你学会转弯时,你慢慢学会何时该放开踩油门的脚,什么时候应该踩刹车。弯路没有相同的,你在学习时,经历各种弯道使你准备好在对的时机踩下刹车。你后来学会开所有的弯道,何时踩刹车、何时放油门都难不倒你。学习这个技术的情境是很理智的,因为你立刻接受到回馈,每当你经过一个转弯,你就接受到一个明确的回馈讯息:现在你过弯转得很顺,你坐起来很舒服,或是你刹车踩得太重,使身体往前倾。港口引水员在指挥调度一艘大船时的状况也同样规律,但技术可就困难多了,需要要靠经验,因为你无法马上得到回馈,动作和可看见的结果之间有很长的延宕。专业人士有没有机会发展出专业直觉,主要取决定于回馈的品质和速度,以及有没有足够的机会练习。
专业技术并不是一个技术,而是很多技术的综合。同一个专业人士,她可能在某个作业上做得非常好,在别的作业上是生手。当西洋棋手变成专家时,他们已经「看过所有东西」(或几乎所有东西),但是就这方面来说,西洋棋是个例外,外科医生可能专精于某些手术,不擅长另一些手术。此外,任何专业工作都有一些层面比别的层面容易学。心理治疗师有很多机会观察病人对他们讲的话做出的立即反应,使他们能发展出找到恰当的字和声调的直觉技术,得以安抚愤怒、产生自信,或使病人的注意力聚焦到别处。从另一方面来说,治疗师没有机会指认哪一个治疗法对不同的病人最有效。他们从病人身上得到的长期结果很稀少,都是递延的或根本不存在(如病人不再回来看这个医生)。很多时候,这回馈太模棱两可,以致不能提供任何从经验得来的学习。
在所有专科医师中,麻醉师最能得到好回馈的帮助,因为他们动作的效果便是立即的证据。相反的,放射科医生对他们的诊断得到最少的正确率讯息,所以麻醉科医生在发展有用的技术上,拥有较有利的位置。假如麻醉师说,「我有个感觉,我觉得不对劲了。」开刀房里的每一个人就应该准备应付紧急状况了。
在这里,就像在主观的自信一样,专家们可能不知道他们专业的上限。有经验的心理治疗师知道她在找出病人心中想什么很有技术,对病人接下来要说什么也很有好的直觉,所以她很自然地觉得自己可以预期病人下一年的情况。但是这个结论就不见得对,短期预测和长期预测是两回事,治疗师有适当的机会去学习一个情境,但是没有学到另一个情境。同样的,财务专家在他的本行中,可能有很多层面的技术,但是在选择股票上就没有;中东问题的专家可能知道很多事情,但是不知道中东的未来如何。临床心理师、股票经纪人、权威人士在一些作业上的确有直觉的技术,但是他们还没有学会辨识直觉在哪种情境和作业下会背叛他们。这个没有被辨认出的专业技术上限,解释了为什么专家通常都过度自信。
评估效度
在克莱恩和我合作的后期,我们对最初的问题有了一致性的回答:你什么时候可以信任专家的直觉?我们的结论是,大部分时候,你可以区辨出有效度的直觉和吹牛的直觉。就像判断一个艺术品是真的还是仿制品,你会发现,聚焦在它的出处比注意艺术品本身有利。假如环境的规律性足够,判断者也有机会学习它的规律性,联结机制会辨识情境,会很快得出正确的预测和决定。假如符合这些条件,你可以相信这个专家的直觉。
很不幸的是,联结机制也得出错误但令人信服的主观直觉。看过有才气的年轻棋手下棋的人就知道,他的技术不会马上炉火纯青,在到达炉火纯青的阶段前,会非常有自信地犯下一些错误。在评估专家直觉时,你应该要考虑这个专家是否有足够的机会去学习线索,即使在规律的环境下,也要先确定这个条件。
在比较不规律、低效度的环境中,判断捷径会被激发起来,系统一通常能很快用替代的方式创造原本没有的一致性。制造出困难问题的答案,创造出完整的故事来。它回答的问题不是你原先要问的,但是答案很快就出现,非常似是而非的通过懒惰、宽容的系统二的检查。你可能想预测一个公司未来的经营情形,而且相信这就是你的判断,事实上,你的评估是受到这公司目前经营团队的热情和能力的印象所主控,因为这个替代是自动发生的,你常常不知道你(系统二)的判断来源,就采用了它。假如这是唯一进入你心中的判断,在主观上,可能与你用专家自信得出的有效判断无法区辨。这是为什么主观的自信不是正确率的好诊断,回答错误问题的判断也可能是在很自信的情况下得出来的。
你可能会问,为什么克莱恩和我没有马上想到用环境规律性和专家过去学习经验来评估专家直觉?这是专家自信最重要的两个来源,我们认为答案可能是什么?这些都是好问题,因为答案的轮廓从一开始就明显了。我们知道火灾现场的消防队小队长和小儿科护士一开始就和米尔研究中的专家,如股票经纪人和政治权威人士,处于边界的两边。
现在很难说得清楚为什么当时我们花那么多的时间去讨论、交换论文草稿,及往来几百封电子邮件讨论,而且好几次想放弃。但是一个专案要圆满结束,这些过程是免不了的:一旦你了解了主要的结论,这些结论看起来显而易见。
就像我们论文的标题所显示的,克莱恩和我的意见相左处低于预期,对所提出的议题几乎都达到共识。然而,我们也发现我们早期的差异其实不只是学术上的意见不同。我们有不同的态度、情绪,和偏好,而多年来,这方面的改变非常少。当「偏见」这个字出现时,克莱恩还是会皱眉头,他还是很喜欢告诉别人演算法或公式如何得出可笑的决定。我还是把演算法偶尔的错误看成改进公式的机会。从另一方面来说,那些宣称有直觉能力的骄傲专家在零效度情境的报应上,我比克莱恩得到更大的快乐。然而,就长远来说,如我们所做的,找到学术上的共同点绝对是比坚持我们情绪上的不同重要得多。
说到专家的直觉
「在这项作业上她有多少专业知识?她有多少练习机会?」
「他真的相信初创公司的环境足够规律化,使他有信心认为他的直觉可以挑战基率吗?」
「她对自己的决定非常有信心,但是主观的自信是判断正确率很差的指标。」
「他真的有机会去学习吗?在他的判断上,他所收到的回馈有多快,多清楚?」
23 外在看法
在我和特维斯基开始合作后几年,我说服了以色列教育部的一些官员,在高中的课程里加入判断和决策制定的课。我找了好几个有经验的老师、我心理系的学生,和福克斯(Seymour Fox 那时是希伯莱大学教育学院的院长,他是课程发展专家),一同来设计这个课程和编写教科书。
在每个礼拜五下午开会,开了一年以后,我们拟出详细的课程大纲,写了两章的教科书,在教室中做了一些样本的模拟,我们都对进度感到很满意。有一天,在讨论估算不确定性的数量的流程时,我突然想到去做一个练习。我请每一个人写下他估计还要多久才会完成这个计划,才能把教科书交到教育部去。我用的方式不是公开讨论而是私下搜集每一个人的判断,这是想要从团体中得到讯息的正确方法。这个方式比一般常用的公开讨论更能搜集到有用的知识。我搜集到这些估算值,把它写在黑板上,几乎都集中在两年:最低的是一年半,最高的是两年半。
然后我转向福克斯,我们课程专家,问他能不能想出另外一个跟我们相似、也是从无到有设计出课程的团队。那时正是好几个创新课程,如「新数学」被介绍入学校的时候。福克斯说他可以想到好几个。然后我追问,他熟不熟悉这些团队过去的历史,他说他对好几个很熟悉。我请他去回想,当这些团队进行到我们现在这个地步时,他们又花了多久才做完教科书的专案。
他安静了好一阵子,当他最后开口时,我觉得他似乎为自己的答案很不好意思,好像很窘:「你知道,我以前从来没有想过,但是事实上,不是所有到了我们这个阶段的团队,都能完成他们的作业,有很大一部分的团队最后是没有做完的。」
这很令人担忧,我从来没有去考虑这专案会失败的可能性。我的焦虑升高了。我问他有多少的比例最后没有完成。他说大约40%。现在,愁云惨雾密布了整个房间。下面的问题是很明显的了,「那些后来完成的,」我问道,「他们花了多少时间?」他回答道:「我想不起任何团体少于七年,不过也没有任何团队多于十年。」
我抓住最后一根稻草:「当你比较我们的技术和资源时,你觉得我们跟过去那些团队相比,我们有没有比较好?跟他们相比,你会如何排序我们?」这次他没有犹疑很久,「我们比一般的平均差。」他说,「但是没有差太多。」这对我们全体都是一个大惊讶──包括福克斯自己。他之前的预测跟其他的团队成员差不多,都在两年左右。在我追问他之前,他对先前团队历史的知识和对我们自己未来的预测,中间的联结完全没有进入他的心中。
当我们听到福克斯的话,当时的感觉完全无法用「知道了」来描述。当然,我们所有人都听到了七年和40%的失败率,它似乎比我们几分钟前写在小纸条上的数字更可能是我们未来的命运预告。但是我们并没有真正承认说我们知道,这个新的预告看来仍然非常的不真实,因为我们不能想像怎么可能花这么长的时间去完成一个看起来并没有这么难的工作。我们手边没有水晶球来告诉我们这个不太可能的事件会是我们的未来。我们能看到的就是一个合理的计划,按照计划走,我们在两年左右会完成一本书,跟别的团队的统计相抵触。其实我们所听到的是一个基率的讯息,从这个讯息,我们应该推论出一个因果的故事:假如这么多团队失败,剩下成功的又花了这么长的时间,写一本教科书一定比我们想像的难很多。但是这个推论会跟我们直接的经验相抵触,因为我们都觉得我们进行的很顺利,福克斯所提供的统计数据被当作基率,就像一般基率被对待的方式,我们知道了,把它放在一边,不理它了。
我们其实在那一天就该放弃。我们没有一个人愿意投资六年去为一个有40%失败率的作业工作。虽然我们一定感受到这个坚持是不合理的,这个警告并没有提供一个立即紧迫的理由来让我们放弃,在经过几分钟的断断续续辩论后,我们振作起来继续工作,就好像这事完全没有发生一样。这本书最后终于在八年后完工了。那个时候,我已经不住在以色列了,而且也有很久不再是团队中的一员了。这个团队在经过很多不可预测的沧桑之后,终于完成了。当初跟教育部提出这个计划的热情到这本书完成时早已不见,而这本书也从来没有被使用过。
这个令人发窘的事件一直是我事业中最有教育意义的经验之一。我从它身上学到三个教训。第一个是立刻看得到的:我掉入一个陷阱,没有看到有两种截然不同的预测未来的方式,特维斯基后来和我把它叫成「内部的看法」(inside view) 和「外在的看法」(outside view)。第二个教训是我们一开始预测两年可以完成这个专案是一个「计划的谬论」(planning fallacy)。我们的估算是依最佳情况而不是依真实情况。我过了很久才接受第三个教训。我把它称之为「不合理的坚持」(irrational perseverance):我们那天没有放弃这个计划是错误,面对一个选择时,我们放弃了理性而不是放弃这个企画案。
朝向内部看法
在很久以前的那个星期五,我们的课程专家对同样问题做了两个判断,得出两个不同的答案。内在的看法是我们全体,包括福克斯在内,自发性的去评估我们专案的未来。我们聚焦在我们特殊的情境,在我们自己的经验中去搜寻证据。我们描绘出一个计划:我们知道我们要写多少个章节,我们知道要花多少时间才完成我们已经有的头两章,比较保守的估计就是把完成这两章的时间再多加几个月作为可能出错的宽限期就好了。
用它去建构新的数据是个错误。我们是依照我们眼前的讯息──WYSIATI──来预告后面,但是我们所写的第一章可能比其他章容易,而我们当时对专案所投注的精力可能也是最高的,但是这问题是我们没有去考虑隆斯费尔德 (Donald Rumsfeld) 著名的「不知道的不知道」(unknown unknowns)。我们在那一天其实根本不可能去预测,后续的事件会使这个专案拖了这么久。离婚、生病,跟官僚的政府打交道,这些都会拖延工作,但是这些都不可预测。这些事件不但使章节的撰写慢了下来,它甚至使很长一段时间,一点进展也没有。同样情形一定也发生在福克斯熟悉的那些团队身上。那些团队的成员一定也无法想像这些突发的事件会使他们花了七年的时光才完成,或最后没有完成。这个专案在一开始时,他们一定也是认为可以做得成的。像我们一样,他们并不知道他们所面对的机率。一个专案要失败有很多的原因,虽然大多数的原因是不太可能发生,但是某些事会出错的可能性在大的计划专案中是很高的[1]。
我问福克斯的第二个问题,把他的注意力从我们身上引开而去注意到相同情况的案例上,福克斯估计那个参考团队的基率是40%失败,七到十年才能完成,他非正式的调查当然不能跟科学上的证据标准相比,但是它提供了一个非常合理的基础作为预测的基线。你在对一个你完全不知道的个案在做预测,你唯一知道的就是它是属于哪一个类别。我们前面有看到,基线调整应该是未来预测的锚。假如人家请你去猜一个女人有多高,而你唯一知道的资讯是她住在纽约市,那么你的基线就是你最好的猜测,因为你的基线就是纽约市妇女的平均高度。假如人家给你一个特定的资讯,这个女人的儿子是高中篮球队的队员,你会调整你的估计把它从平均数往上移。福克斯在把我们的团队跟其他的比时说我们的结果会比基线更差一点,那就已经是很严峻的了。
虽然外在看法对我们当时问题有这么惊人的准确度,但是它不应该拿来当作外在看法效度的证据。外在看法应该建立在一个一般性的立足点上:假如正确的选择参考类别,外在的看法可以让我们看到预测的大致范围,那么它也许会告诉你,这个内在看法的预测差得远了,就像我们的情况一样。
对一个心理学家来说,福克斯两次判断的差异是非常令人惊异的。在他的脑海里,有所有需要去估计的统计数字,他有这个知识,但是他在做决定时,却没有运用到这个知识。福克斯内在看法的预测并不是基线的调整,因为这个知识没有进入他的心中。它是基于我们大家很努力的这个特别的情况来下的决定。就像汤姆实验中的受试者,福克斯知道相关的基线,但是却没有想到要去使用它。
不像福克斯,我们其余的人,并没有办法去接触到外在看法,所以无法得出合理的基线预测。然而,我们并不觉得需要别的团队的资讯来做我们的预测。我要求外在看法的举动,惊讶了所有的人,包括我自己在内。这是一个常见的普通形态,握有某个个案讯息的人很少觉得他们需要去了解该个案所属类别的统计数字。
当我们终于拿到外在看法的数据时,我们全体一致的忽略它,我们可以看出发生了什么事,它和「教心理学无用」的说法很相似。奈斯比和波吉达的学生在很少资讯的情况下,针对他们手边一点点的访问资讯(一个简短枯燥的采访),就对那个人会不会去帮助别人做出判断,完全忽略他们刚刚学到的整体结果。「苍白」的统计资讯如果与一个人对这个案子的印象不一致时,它会被丢弃在一旁。当与内在看法竞争时,外在看法连一点机会也没有的。
我们偏好内在看法有时是有道德的弦外之音的。我有一次去问我的表兄弟,他是很有名的律师,「被告赢得类似这个案子的机率有多少?」他尖锐的回答说,「每一个案子都是独特的」,脸上的表情很清楚地指出他对我的问题觉得非常不恰当,非常的肤浅。骄傲的强调每一个案例都是独特的现象在医界也常看到,虽然最近对以证据为主 (evidence based) 的医学研究已经指出另一个方向。医学的统计和基线的预测愈来愈常出现在医生和病人的对话中。然而,医学专业领域对外在看法留存的矛盾心理,让医生还是会说由统计和清单主导非人性化的疗程让人不放心。
计划的谬论
从外在看法的预测和后来的结果看来,我们当年那个星期五下午的原始预测几乎是妄想。这其实不应该是惊讶:到处都看到对专案太过乐观的预测。特维斯基和我为它起了个名字:「计划的谬论」用来描述有以下特质的计划和预测:
- 不真实的接近最完美的情境。
- 可以借着参考其他类似案例的统计来改善。
计划的谬论的例子在政府和企业以及每个人的生活中,比比皆是。在1997年的7月,苏格兰要在爱丁堡盖一个新的国会大厦,当时的预算是4千万英镑,到1999年的6月,预算已经追加到1.09亿英镑。2000年4月,国会议员将预算上限定在1.95亿。到2001年11月,国会议员要求估计「最后预算」,结果设在2.41亿英镑,2002年这个数字又上调两次达到2.946亿英镑。到了2003年又涨三次,6月之前预算已高达3.758亿英镑。这栋大楼最后在2004年完工,总共花费了4.31亿英镑。
- 2005年,有一个研究是调查1969年到1998年间,全世界的铁路工程。结果发现,有90%以上的工程都高估了乘火车的人数。虽然乘客没有原来估计的多的新闻早已向全世界广为公布,但它并没有改进之后三十年的预测。一般来说,计划者高估新铁路乘客的人数106%,而预算平均超过原来的45%,虽然更多的证据一直在累积,但它一点也没有改变专家们的作为。
- 2002年,美国调查有多少屋主花钱重新装修厨房。结果发现他们原来期待平均花费18,658美元就能装修好厨房,但是最后平均要花38,769元才能完工。
乐观的计划者和决策者并不是超出预算的唯一原因,改建厨房的包工和武器承包商都承认(虽然不是对客户),他们习惯性的从追加预算上获得最大利润。在这些情况中,不能预见的预算追加,反映出客户无法想像他们的期望会随时间而增加到多少。如果他们一开始时,能够很切实的做一个计划,然后严格遵守,最后就不会多付这么多钱。
一开始时的预算错误并非表面看起来那么的无辜,很多不切实际的计划其实是想要得到他们老板或客户的同意,他们知道开工后,很少计划会因为超出预算而停止不做[2]。在这种情况之下,要避免计划的谬论最大的责任在同意这个计划的决策者身上。假如他们没有看到寻求外在看法的必要性,他们就犯了计划的谬论。
缓解计划的谬论
从那个星期五下午以来,对于计划的谬论的诊断和补救并没有改变什么,但是实现这个想法倒是走了很长的路。有名的丹麦计划专家佛赖夫杰格 (Bent Flyvbjerg) 现在在牛津大学教书,他给了下面这个强有力的总结:
轻视或忽略扩散性知识的普遍倾向,是发生预测错误最主要的原因。计划者应该尽力去框住要预测的问题,使能充分应用手边所能获取的扩散性讯息。
如何透过改进方法以增加正确预测率,这可以说最重要的一个忠告了。用从相似的冒险活动所得来的扩散性讯息来预测手边的投资就叫做「外在看法」,它就是治疗计划谬论的良药。
现在这个治疗计划谬论的方法有了科技上的名字,叫做「参考类别预测」(reference class forecasting),佛赖夫杰格把它应用到好几个国家的交通专案上,这些专案又为全世界的几百个专案提供了计划和结果的讯息,它可以用来提供统计讯息给那些超越预算和时间的案子以及那些可能会做不好的专案。
佛赖夫杰格所用的预测方法跟克服忽略基率所用的方法很相似:
- 找出适当的参考类别(厨房改建、大型铁路工程等)。
- 取得这种类型的统计数字(如每一哩铁路要多少造价,或超越预算的百分比),用这些统计数字来得出一个基线的预测。
- 用这个案子特别的讯息来调整基线预测,假如已有某些理由去预期乐观的偏见会在本专案中比在其他类似的案子中更为突出。
佛赖夫杰格的分析是用来指引那些把公共工程包出去给别人做的官员,提供他们相似计划超出预算的相关统计数字,决策制定者需要知道这个专案成本和利益的实际评估,才能做最后的决定。他们可能也希望去估计要保留多少预算来应付超支,虽然这个谨慎常会变成自我实现的预言,就如一位官员告诉佛赖夫杰格:「保留的预算对承包商来说就好比狮子的一块红肉,他们会大口吞食掉。」
一个企业常会面对的挑战是:各个主管用太过乐观的计划来竞争资源,一个经营得很好的企业应该要给执行精确的计划者奖励,给没有预期到困难的计划者惩罚,因为他们不知道他们自己不知道 (unknown unknowns),所以他们没有预期到。
决策和错误
那个星期五下午是三十多年前的事了。我常想到它,一年总有好几次,会在课堂上提到它。我一些朋友都听的烦了,但是我每次还是能从中学到新的教训。在我跟特维斯基提出计划的谬论十五年后左右,我和罗瓦洛 (Dan Lovallo) 再回到这个题目,我们一起草拟了决策制定理论,其中乐观的偏见是一个显著的风险来源,在经济学的标准理性模式中,人愿冒险,因为胜算的机率大,他们愿意接受一些失败的可能性,因为胜算的机率够大。我们提出另一种想法。
当预测一个风险专案的结果时,主管或老板太容易变成计划谬论的牺牲者。在谬论的掌控下,他们根据妄想的乐观来做决定,而不是理智地把获利、开销,和机率拿来赋予不同的权重后再全盘来考虑。他们高估收入,低估开销。他们在脑海里想像成功的情景而忽略了可能的错误。所以他们追求那些不可能在预算内或在预定时间内完成、不可能带来预期收入的提案。有的甚至不可能完工。
在这种看法下,人们常常(但不是一定)去做冒险的专案,因为他们对他们所面对的机率太过乐观。我会在本书中,多次回到这一点上。它是人们为什么打官司、为什么打仗,为什么开创小型企业的一个原因。
未通过测验
许多年来,我认为这个设计课程故事的要点就是我从我的朋友福克斯身上所学到的教训:他对我们这专案的未来,最好的预测不是来自他对相关专案的知识。我在这个故事中表现得很好,我是聪明的提问题者,也是精明的心理学家。我直到最近才了解,我其实扮演的是呆子和无能的领导者。
这个专案是我提出来的,所以当然是我的责任去保证它是有意义的,主要的问题都被大家适当的讨论过,但是我在这一点上失败了,我的问题已经不再是计划的谬论,我在听到福克斯的统计总论后,我就去除了那个谬论。假如你强迫我说,我会说我们早期的估计是太过乐观了。假如你再强迫我说更多,我会承认我们在这个计划一开始时,就有错误的前提,我们至少应该严肃的考虑「宣布失败,解散」的这个可能性。但是没有人强迫我,我们也没有讨论,我们默默地同意继续做,没有清楚的预测我们的努力可以维持多久。这很容易,因为我们一开始就没有做任何的预测。假如我们当时有合理的基线预测,我们就不会投入去做它,但是我们已经投资了这么多的努力──这就是沉没成本谬论 (sunk-cost fallacy) 的例子。我们会在下面仔细地讨论它。对我们来说,放弃会很丢面子──尤其是我──而且当时也没看到什么立即的理由要放弃。在危机时,改变方向比较容易,但是这不是危机,只是一些新的,以前不知道的事实而已,外在看法很容易忽略。对我们当时的情况,我所能做出最好的描述就是懒散──不愿去思考发生了什么事。所以我们就继续做下去了。在我留在这个团队中剩下的时间,我们没有再去做理性的计划,这对投身要教导理性的团队来说,是一个很令人不安的忽略。我希望我现在聪明了一点,我现在也养成了寻求外在看法的习惯。但是这永远不是自然而然会去做的事。
说到外面看法
「他采取的是内在看法,他应该忘记他自己的案子,去看看别的案子发生了什么事。」
「她是计划谬论的牺牲者,她假设所有事情都在最好的条件之下,但是实在有太多的陷阱可以让这个计划失望,而她不可能预见所有的障碍。」
「假设你对这件诉讼案什么都不知道,只知道这是一件医疗纠纷,一个病人去告一个外科医生。你的基线预测在哪里?有多少这种官司在法庭中是打赢的?有多少是庭外和解?和解金是多少钱?我们现在讨论的案子比起其他类似的,是比较强,还是比较弱?」
「我们又更加投资了一些,同为我们不愿承认错误,这就是沉没成本的谬论。」
24 资本主义的引擎
计划的谬论只是乐观偏见显现出来的一个例子而已,我们到处可见这种乐观的偏见。我们大部分人都用玫瑰色的眼光去看这个世界,其实真实的世界没有我们想像得那么好,我们看自己的特质也是比我们实际的好。我们也喜欢夸大我们预测未来的能力,这来自我们乐观的过度自信。就决策后果来说,乐观的偏见可以说是认知偏见中最显著的一个。因为乐观偏见可以是福气,也可能是冒险,假如你是个乐观的人,你应该既快乐又担心。
乐观
乐观很正常,但是有些幸运的人比我们一般人更乐观。假如你在基因上,有乐观偏见的福赐,你根本不需别人告诉你,你很幸运──你自己已经觉得了。一个乐观的态度绝大部分是遗传而来的。这是幸福 (well-being) 本质的一部分,它还包括看到事情的光明面。假如允许为你孩子许一个愿望,请严肃的考虑这个希望是乐观。乐观的人一般来说是愉快的、兴高采烈的,所以人缘很好,很多人喜欢他。他们在碰到挫折或困境时,可以反弹回来,不会一蹶不振,他们成为临床上忧郁症的机会很少,他们的免疫系统会很强,他们比较会照顾自己的健康,他们觉得自己比别人更健康,事实上,也可能活的比较长一点。有一个研究是去看那些吹嘘自己会活得比统计寿命更长久的人,发现他们工作的时间比别人长,对未来的收入比较乐观,在离婚后,比较可能再结婚(是经典「希望战胜经验」(triumph of hope over experience) 的例子,比较敢在个股上下赌注。当然,乐观的好处只有给那些轻度偏见,和那些能够「非常正向而没有失去真实感」的人。
乐观的人在塑造我们的生活上扮演了超越它未来份量的角色。他们的决定造成差别,他们是发明家、创业家,政治和军事的领导者,他们不是一般的普通人。他们寻求挑战,接受冒险,所以他们达到他们现在的位置。他们很有能力又很幸运。他们绝对是比他们肯承认的更有好运相助,他们很可能天生的脾气就是乐观,有一个专对小型企业老板的调查,发现这些创业家比中层经理人的生活更要乐观。他们成功的经验肯定了他们对自己判断力的信心,以及他们控制事件的能力。他们的自我信心又受到崇拜者的强化。这个理由引出一个假设:这些对别人生活有最大影响力的人最可能是乐观的、过度自信的,比他自己所了解的更愿意去冒险的。
证据显示,乐观偏见有的时候扮演主控的角色──当个人或公司自愿去承担显著的风险时,他们是主角。通常冒险者会低估了失败的机率,虽然他们确实投入很多心力找出成败机率,但是因为他们错估了风险,乐观的创业家常常认为自己是很谨慎的,即使事实并不然。他们对自己未来成功的信心保持正向的心情,这帮助他们从别人身上得到资源,提升了他们员工的士气,增加了成功的可能性。当需要采取行动时,乐观,即使已经是轻度的妄想,可能也是件好事。
创业的妄想
在美国,一个小公司能维持五年的机率是35%。但是自己经营事业的人并不认为这个统计数字应用到他身上。有一个调查发现,美国的创业家倾向于相信他们是在成功的商业路上前进:他们估计像他们这样公司成功的机率是60%──几乎比真正的机率高了一倍。当人们评估他自己投资的机率时,这偏见还要更高。有81%的创业家把他自己个人成功的机率定为70%或更高,有33%的人说他们不可能失败,失败的机率是零。
这个偏见的方向并不令人惊异,假如你访谈一位最近刚刚开了一家义大利餐馆的人,你不预期她会低估他成功的可能性,或是对自己经营餐厅的能力不看好。但是你一定会想:假如她花了合理的时间和精力去找出做这一行的机率,她还会投资这么多的钱和精力在这上面吗?假如她真的知道这个机率(即有60%的新餐厅在三年后关门大吉),她会注意这个数字吗?她可能完全没有想过要去采取一个外在看法。
一个性格乐观的人有一个优势,他们在面对挫折时,会有勇气坚持。但是坚持的代价有时很大,亚斯特波洛 (Thomas Åstebro) 有一系列让人印象深刻的实验,让我们看到一个乐观者接受到坏消息时,什么反应。他从加拿大的一个组织──发明家协助专案组织 (Inventor's Assistance Program) 中获取他的资料。这个组织抽取少许的手续费,对发明家创意点子的商业前景进行一个客观的评估。这个评估按照37个标准来排序,包括产品的需求、制造的成本,以及需求趋势的估计。他们用英文字母来代表排序分析的总结,D和E是预测失败──这个预测占他们评估产品的70%以上。失败的预测非常的准确:在411个专案中,只有5件他们给予达到商业化最低标准的评分,但是没有一件是成功的。
一半的发明家在接到预测会失败的成绩单后决定退出,然而,有47%的人继续努力,即使在被告知他们在专案完全没有希望,这些坚持的人在赔掉二倍他们最初的损失后,才放弃。显然在被告知坏消息后,继续坚持的人还相当普遍,这些人在人格测量的乐观量表上,分数都很高,比一般人都高。整个来说,私人发明的回收是很少的,「比私募基金 (private equity) 的回收低,也比高风险的证券回收低」。一般来说,自雇者的财务收益中等,同样条件下,把自己的技能卖给老板会比自己经营赚更多钱,这些证据显示乐观是一个扩散的很广、很顽固、很花钱的一个习性。
心理学家发现大部分的人都觉得自己比别人高明,尤其在人们喜欢的人格特质上。他们甚至愿意在实验室中去赌上一赌。当然,在市场上,认为自己比别人高明是有重大的后果的。大企业的老板有时下很大的赌注在价格昂贵的购并上,错误的以为自己可以经营另一家公司比它现任的拥有者还好。股票市场通常的反应是看贬并购公司的价值,因为过去的经验显示,去整合一家大公司的失败率通常是大于成功率,这个错导的合并可以用傲慢假设 (hubris hypothesis) 来解释:这家并购公司的高阶主管们比他自己想的还更不能干。
经济学家莫曼迪尔 (Ulrike Malmendier) 和泰德 (Geoffrey Tate) 用公司老板自己拥有多少股票来界定这个执行长是不是乐观,他们发现高乐观度的执行长冒最大的险。他们会比别人更高价买下他要的公司,明知这个并购可能会摧毁这个公司的价值。这两位作者发现,假如并购者公司的执行长太过乐观的话,他公司的股票会大幅下降,股票市场显然有办法辨识出过度自信的执行长,研究者的这个观察替执行长洗清了一个罪名:他们不是因为用的是别人的钱才这样大胆下赌注,相反的他们用自己的钱时,下的赌注更大。假如商业新闻记者把他奉为名人的话,这些过度自信的执行长所引发的损失会滚得愈大。证据显示愈是高地位的媒体颁奖给执行长,他的股东损失愈大。作者写道:我们发现就股票和经营表现来说,有得过奖的执行长的公司后来的表现都不好,在这同时,公司给执行长的薪水增加了,执行长花更多的时间在公司以外的地方,如写书,担任外部董事。
许多年前,我太太和我去温哥华岛渡假,想找一个地方住。我们在森林中,一条很少人走的路上,发现了一间很吸引人但废弃没人住的旅馆。旅馆主人是一对很有魅力的年轻夫妇,他们不需什么鼓励就很愿意告诉我们他们的故事。他们曾是加拿大阿尔伯塔 (Alberta) 省的学校老师,决定改换生活方式后,用他们所有的积蓄买下这间旅馆,这旅馆大约在十二年前盖的。他们没有任何讽刺或自我意识的告诉我们他们买得很便宜,因为前六或七任的主人都没有办法经营下去。他们说,他们正在计划贷款以把这个地方变得比较吸引人,他们要在旁边盖一间餐馆。他们觉得没有必要解释为什么他们觉得他们会成功而前面的六、七任主人都失败了。从旅馆主人到超级执行长,大胆和乐观这条线把商人都串在一起了。
乐观的冒险跟随着创业家,他们对资本主义社会经济的动能绝对有帮助,即使大多数的冒险都是最后失望,他们还是有贡献。然而,伦敦经济学院 (London School of Economics) 的基荷 (Marta Coelho) 指出,当小公司的老板向政府要求贷款时,明知他在未来的几年很可能会宣告破产,政府应不应该提供贷款给那些未来的企业家,是个很困难的决策问题。许多行为经济学家 (behavioral economist) 对「自由主义的家长作风」(libertarian paternalistic) 觉得很自在,没有问题,他们觉得政府就是要帮助人们增加他的收入。对于政府应不应该及如何做来支持小企业,目前还没有令人满意的答案。
竞争忽略
我很想用「一厢情愿的念头」(wishful thinking) 来解释创业者的乐观,但是情绪只是故事的一部分而已,认知偏见扮演了一个重要的角色,即系统一的WYSIATI:
- 我们聚焦在我们的目标上,把锚点定在我们的计划,忽略相关的基率,让自己陷入计划的谬论。
- 我们聚焦在我们想做、能做的事上,忽略别人的计划和别人的技术。
- 当我们解释过去和预测未来时,我们聚焦在技术的因果关系角色,忽略运气的角色。所以我们偏向控制的错觉 (illusion of control)。
- 我们聚焦在我们知道的东西上,忽略我们不知道的东西,这使我们对自己的信念太过自信。
对「90%的驾驶者觉得自己技术优于别人」的观察,在心理学上是一个没有争议的发现,它已经变成文化的一部分,常被用来当作一般人自以为是的例子。然而对这个发现的解释近年来改变了很多,从自我强化 (self-aggrandizement) 到认知偏差,请看下面两个问题:
你是个好的驾驶吗?
跟一般人比起来,你优于他们吗?
第一个问题很简单,答案会马上跳出来,大部分的驾驶者会说是。第二个问题就比较难,对大部分的人来说,这几乎是一个不可能严肃、正确回答的问题。因为它需要知道一般人的驾驶品质。在这一点上,你不会觉得奇怪,本书之前已提及,人们用容易的答案去回答困难的问题。他们把自己和一般人比,但是根本没有去思考一般人究竟是怎么一回事。这个「比一般人好效应」的认知解释是当一般人被问到一个他觉得困难的作业,他们马上把自己评得为比一般人低(对大多数人来说,这个比较困难的问题就好比是「你是否比别人更容易与一个陌生人交谈?」)。这结果是,对于任何相较而言自己做的还不错的事情,人们倾向于过度乐观。
我有好几个机会去问新公司创办人一个改造过的问题:「你觉得你公司的营收有多少是决定于你的努力?」这显然是容易的问题,在我小小的样本中,答案都是马上出来,从来没有低于80%。即使当他们不确定他们会不会成功,这些大胆的人都觉得他们的命运掌握在自己的手中,他们其实错了:一家新公司能否成功还要看其他竞争者的成就,看市场的改变,以及他自己的努力。然而WYSIATI扮演了它的角色,这些企业家当然是聚焦在他们最知道的东西上面──他们的计划和动作以及眼前最要处理的威胁和机会,例如资金的来源。他们对竞争者知道的很少,所以自然觉得竞争者在他的未来没有扮演什么角色。
卡梅尔 (Collin Camerer) 和罗瓦洛 (Dan Lovallo) 创造了一个名词叫「竞争忽略」(competition neglect) 用迪士尼电影公司那时的老板一句话来说明这个现象。当被问到为什么这么多昂贵的大预算的电影都在同一天(如退伍军人纪念日和国庆日)放映?他回答道:
傲慢,傲慢。假如你只想到你自己的事业,你就想:我有一个好的编剧部,我有一个好的行销部,我们要在这一天上映。你没有想到其他每一个人也都这样想。于是在一年的某一个周末,你有五部电影同时上映,你当然不可能有足够的观众去填满五个电影院。
他用傲慢这两个字坦率来回答,但是并不是对其他电影公司展现傲慢和自大的优越感。竞争不是决策的一部分,这里,困难的问题再次用一个简单的替代。需要回答的问题是:「考虑到别人会怎么做,有多少人会来看我们的电影?」但是电影公司老板想到的问题是比较简单,可以用他最容易想到的知识来回答:「我们有没有好的电影及好的行销组织来推销它?」你所熟悉的系统一WYSIATI和替代的功能两者就联手制造出竞争者忽略以及比一般人好的效应。竞争者忽略的后果就是超量的加入者:当超越市场能够提供利润的竞争者进入市场时,大家的结果都是亏损。这结果对市场的典型投资者是个失望,但是整体来说这效应对整个经济是正向的。事实上,都西 (Giovanni Dosi) 和罗瓦洛给这些失败但是为更有资格的竞争者打出一个新市场的创业公司一个名称「乐观的殉道者」(optimistic mantyrs)──对经济好,但对他们的投资者不好。
过度自信
杜克大学 (Duke University) 的教授们做了一项长期的调查,请大公司财务长预测下一年的美国标准普尔指数 (Standard & Poorindex)。教授们搜集了11,600笔预测,然后检验它们的正确率。他们的结论非常直接了当:大公司的财务长对短期股票市场一点线索也没有,他们的估算和真正价值之间的相关比零还少一点!当他们说市场会下降时,其实是会上升,这些发现并不令人惊讶,真正的坏消息是这些财务长并不知道他们的预测是毫无价值的。
除了他们对标准普尔获利指数的猜测之外,被访者还提供其他两个预测:一个他们有90%确定这价格定太高,以及90%确定这价格定太低。他们给出两个价值之间的范围叫做「80%信赖区间」(80% confidence interval),在这间距之外的结果被称之为「惊异」(surprise)。一个人设定他对各种情境的信赖区间后,他预期有20%的惊异结果。结果经常发生的现象就是在这种情形之下惊异太多了,有67%的惊异,远比预期的高了三倍,这显示财务长对他们预测市场的能力太过自信了。这是另一个WYSIATI的表现:当我们预测一个量时,我们依赖来到我们心中的讯息,然后建构一个完整的故事,因为这样估计才有意义。假如讯息没有进入心中──或许他根本不知道有这个讯息,那么估计是不可能的。
这些作者计算了信赖区间,使惊异的例子可以降到20%。他们算出来的结果非常令人惊讶:如果要维持惊异比例在20%,这些财务长每一年都应该这样说:「有80%的机会标准普尔下一年度的获利会在-10%和+30%之间。」这个恰当反应了财务长知识(或更正确地说,他们的无知)的信赖区间,比他们实际上说的信赖区间大了4倍以上。
这涉及到社会心理学家。因为一个诚实的财务长提供的答案会很荒谬,如果财务长告诉他的同侪:「标准普尔下一年的获利很可能在-10%和+30%之间」,他会被人轰出房间,这个大的信赖区间是承认自己的无知,而这是社会不接受的,因为他是领薪水要来提供财务知识的人。即使他们知道自己的知识是非常少,这些财务长会因为承认了自己的无知而被处罚。杜鲁门总统曾经很著名地说过,要求要有一个「单臂的经济学家」(One-armedeconomist),能够清楚采取一个立场,因为他厌倦了经济学家们一直说:「但是从另一方面来说」(On the other hand)[1]。
相信过度自信专家的公司或组织,预期会有严重的损失。关于财务长的研究显示那些最有自信、最乐观的财务长,也是对他自己公司的前景最有信心的,所以他们会去冒更多风险。就像塔里说的,不恰当评估环境的不确定性无可避免地会使经济代理人去冒他应该避免的风险。然而,乐观是被推崇的,不但在社交上,在市场上也是一样,个人和公司组织对于提供危险误导讯息的人的奖励都远大于他们奖励说实话的人。金融危机所引起的大衰退的原因之一是,有一段时间,专家和企业的竞争创造出一股强大的力量,造成集体盲目投资,看不见风险和不确定性。
偏好过度自信的社会和经济压力并不限于财务预测,其他的专业人士也必须面对所谓「专家」就要展现高度自信的事实。泰特拉克观察到大部分过度自信的专家是最可能受邀请上新闻节目的人,过度自信在医学上也很流行。有一个针对加护病房死亡病人的研究,他们比较尸体解剖结果与病人还活着时医生的诊断结果,以及医生的诊断信心。结果发现:「完全确定病人临终诊断结果的医生错误率高达 40%」。在这里,我们又一次看到专家的过度自信是被他的病人或客户所鼓励的,「一般来说,如果医生显现出不确定性,他会被认为很懦弱或不专业,在这行业上,信心的重要性比不确定性高,而且对病人显示不确定性是会被责难的。」一个专家如果完全坦承自己的无知,他会被比较自信、比较得到客户信任的竞争者所取代。对不确定性没有偏见其实是理性的基石,但是这不是人们和企业所要的,在危险的情况下,极端的不确定性会瘫痪一切,而在代价很高时,承认你只是猜想的,尤其是不可接受,所以假装有知识便成了比较好的解法方法。
当情绪、认知和社会因素聚在一起时,夸大的乐观是被支持的,它有时会引导人们去冒不必要的险,尤其是如果事先知道胜算机率的话,他们就不会去冒的险。目前没有证据支持在经济领域冒险的人对高赌注的赌博有着不寻常的喜好,他们只是比别人更不觉知风险而已。罗瓦洛和我创造了「卤莽的预测,胆小的决定」这个句子来描述承担风险的背景情况。
高乐观在决策制定上,即使在最好的情况,也是忧喜参半,但是把乐观用在好的执行上绝对是正向的。乐观的主要益处是在面对挫折时,可以反弹回来。根据赛利格曼 (Martin Seligman) 这位正向心理学的创始人,一个「乐观的解释风格」会用防卫自我形象的方式使自己再站起来。简单的说,乐观的风格就是,成功是我的功劳,失败是我有小小疏忽。这个风格可以教导,至少在某个程度上可以教,赛利格曼记录了他替高失败率的行业,如保险公司的电话销售员(这是在网际网路还没有发明前最普遍的销售方式)作训练的成果。当一个人刚刚被愤怒的屋主推出去把门甩上时,「她是个可怕的女人」的念头绝对是比「我是个无能的推销员。」来得好。我一直认为科学研究是另一个乐观主义会导致成功的领域:我到现在为止,还没有遇见过任何一个成功的科学家缺少夸大自己研究重要性的能力,每一个成功者都会自我吹嘘,因为那些不会把自己的重要性放大的人,在不断重复小失败、很少大成功的科学实验过程中,会一蹶不振的。
事前:部分的补救
过度自信的乐观可以用训练来克服吗?我对这点不乐观。过去曾有很多的尝试,想训练人们陈述信赖区间时能反映他们不精确的判断,结果成功率很低。一个常被引用的例子是荷兰皇家壳牌 (Royal Dutch Shell) 公司的地质学家在经过训练后,变得比较不那么过度自信,因为他们给地质学家看,过去有多少次,他们信心满满说一定有油,结果挖下去没有油。在其他情况下,过度自信是被减弱了,当他们被训练去考虑跟他们想法竞争的其他可能假设时,但是没有去除。然而,过度自信是系统一特质的直接后果,它可以被驯服,但是无法消失。它的困难在于主观的自信是由人们建构出来的故事连贯性决定的,而不是由支持讯息的品质或数量来决定的。
企业可能比个人更能驯服过度乐观,最好的方法是克莱恩提出的,他是我的「敌对型合作者」,他防卫直觉的决策制定,不相信有偏见,对演算法有敌意。他把他的方法叫「事前」(Premortem),这个程序很简单,当一个组织快要面临重要决策,但还没有完全承诺时,克莱恩建议把所有跟这个决策有相关知识的人聚集在一起开个会,会议的前题是很短的发言:「想像我们已经过了一年,我们完成了这个计划所说的一切,它的结果是大灾难,请用五到十分钟来写下这个灾难的历史。」
克莱恩这个「事前」想法通常会激发立即的热情。当我轻松随意地在达沃斯论坛描述这个想法后,坐在我后面的人自言自语地说,「就凭这个,就值得来达沃斯开这个会。」(我后来发现,说话的人是一个跨国大公司的执行长)。事前检讨有两个好处:它克服了许多团队所面临的集体思考的效应,即一旦决策好像已经制定了,其他人就不讲话了,因为怕被说没有团队精神[2],第二个好处是它解放了有知识的人的想像力,使他们朝着急需厘清的方向去思考。
当一个团队的思考方向都辐辏聚集──特别是领导人表明意见后──公开怀疑这个计划可行性的声音就慢慢被压下来,最后变成在一个决定后对团队和领导人的忠诚不足的证据。这被压下来的怀疑就对团队的过度自信做出贡献,因为只有支持决策的人才有发言权。而这个「事前检讨」最大的好处就是它使怀疑合法化。此外,它鼓励甚至支持决策者去搜寻可能的威胁,而他们以前可能从来没有去想过有这种威胁存在。这个事前检讨不是仙丹,它不能提供完全的保护,使决策不受严重意外事件的伤害,但是它减少了计划受到WYSIATI偏见以及不批评的乐观主义的伤害。
说到乐观
「他们有控制的错觉。他们严重地低估了障碍与困难度。」
「他们好像得了严重的『竞争者忽略』的毛病。」
「这是一个过度自信的案子,他们似乎认为自己知道的比实际的还多。」
「我们应该举办一个事前检讨会,有人可能会想到一些我们忽略的威胁。」
第四部 选择
25 白努利的错误
在1970年代初期的某一天,特维斯基给我一份影印的论文,那是瑞士经济学家佛瑞 (Bruno Frey) 所写的讨论经济学理论的心理假设。我非常记得那个封面是暗红色。佛瑞几乎想不起写过这篇文章,但是我仍然可以背出它的第一句话:「经济学理论的代理人是理性、自利的,而他的偏好不会改变。」
我深受惊讶,我的经济学家同事就在隔壁大楼,但是我从来没有发现我们的学术世界有这么大的差异。对一个心理学家来说,人既不是理性的,也不是完全自私的,而且他们的偏好绝对不是稳定的,这些都是自我证据,不需要做实验去证明的。我们两人的学门似乎在研究不同的物种,行为经济学家瑟勒后来把它叫做「经济人和普通人」(Econs and Humans)。
不像经济人,心理学家所知道的普通人有系统一,他们对世界的看法是受限于在某个时间点手边所具有的知识 (WYSIATI),所以他们不能像经济人一样有一致性,也不能很有逻辑。他们有时很慷慨,愿意对他们所属的团体贡献。他们常常不知道他们明年或甚至明天想要什么。这给了跨领域间一些有趣对谈的机会,我从来没有想到我的事业会被这个对话而改变[1]。
在特维斯基给我看佛瑞的论文不久,他建议我们下一个计划研究决策制定。我对这个题目一无所知,但是特维斯基是专家而且是那个领域的闪亮之星,他说他可以教我。他说他还是研究生的时候,就与别人合写了一本教科书《数学心理学》(Mathematical Psycholozy),他指引[2] 我去读几章他认为是必要的入门知识。
我很快就学会我们的主题将是人们对风险选择的态度,我们对特定题目找答案:例如人们在简单赌局中,做选择的规则是什么?以及,在赌局和确定会赢之间做选择的规则是什么?
简单的赌局(例如有40%的机会去赢得300元)对做决策研究的学生来说,就像果蝇 (fruit fly) 对遗传学家来说是一样的[3]。这种简单赌局的选择提供一个简单模式,可以把复杂决策的重要特质显现出来,使研究者可以实际得到了解。赌的意思就是说,选择的结果永远不可能确定(确定就不是赌了),即使是表面上确定的结果也是不确定的:当你签一个契约去买一幢公寓时,你并不知道你以后要卖时的价钱,你也不知道你邻居的儿子以后要去学吹低音大喇叭。其实,我们在人生中所做的重大决定都有一些不确定性。这就是为什么学习决策制定的学生希望他们在模式中所学的可以应用到日常生活中的问题上。当然,决策理论家研究简单赌局的主要原因是,其他决策理论家都这样做。
这个领域有个理论,叫「预期效用理论」(expected utility theory),这就是理性代理人模式的基石了。到今天,它还是社会科学最重要的理论。预期效用理论并不是发展出来作心理学模式的,它是一个逻辑的选择,基于最基本的理性逻辑公理 (axioms) 所发展出来的选择。请看例子:
假如你要苹果而不喜欢香蕉,
那么,
你会喜欢有10%的机会去赢一个苹果,而不想要10%的机会去赢一条香蕉。
苹果和香蕉可以替换成任何被选择的东西(包括赌局),而10%的机会也可以替换成任何机率。数学家冯纽曼 (John von Neumann) 是二十世纪最伟大的学术巨人之一,他和经济学家摩根史坦 (Oskar Morgenstern) 从一些逻辑公理中,演算出赌局的理性选择理论。经济学家采用预期效用理论是因为它有双重角色:它可以是规定决策应如何制定的逻辑,也可以当作经济人如何做选择的描述。特维斯基和我是心理学家,所以我们出发去了解普通人如何真正去做风险的选择,而不对他们的理性做任何的假设。
我们还是维持我们平日的例行作息,每天花很多小时在谈话上,有的时候在餐馆,最常是在美丽安静的耶路撒冷街道散步。就像我们在研究判断时一样,我们很仔细的检验我们自己直觉的偏好,我们花很多时间在创造简单的决策问题上,然后问我们自己会怎么选,例如:
你会选哪一个?
A.丢掷铜板,假如是人头正面,你赢100元,假如是反面,你什么都没有赢。
B.确定拿46元,不必掷铜板。
我们并不是想要找出最理性或最有利的选择,我们想要找出直觉的选择,那个一看到就立刻引诱你做决定的选择。我们几乎永远都是选择确定可以拿到46元,你可能也会做同样的选择,当我们很自信的同意我们的选择时,我们相信大部分人也是跟我们一样(后来发现果然是如此),我们就往下再设计,就好像我们有很确定的证据。当然我们知道我们以后必须去验证我们的直觉,但是同时扮演实验者和受试者的角色,使我们可以进展得很快。
在我们开始研究赌局五年以后,我们终于完成一篇论文〈展望理论:在风险下的决策分析〉(Prospect Theory:An Analysis of Decision under Risk)。我们理论的模式跟效用理论很相似,但是在基础方法上有些不同。最重要的是我们的模式是纯粹描述式的,目的是去记录并解释在赌局之间,系统化违反理性逻辑公理的选择。我们把这篇论文投到《计量经济学》(Econometrica) 去,因为这个期刊发表了很多在经济学上和在决策理论上重要的理论文章。我们选择投稿的期刊其实很重要:假如我们投到心理学期刊去,经济学家不会去读它,它所能发挥的效用就很少。然而,我们的决定并不是想去影响经济学家,而是因为《计量经济学》本身是一个很好的期刊,过去重要的决策文章都是发表在这个期刊上,我们很希望能跻身这些最好的论文中。在这选择上,我们很幸运,展望理论变成我们所做的最重要的研究,是社会科学中被引用最多次的文章之一。两年以后,我们在《科学》期刊上发表了「框架效应」(framing effect):有的时候,人们大幅度地改变他们的偏好,主要是因为描述这个问题所用的字眼和方式的关系。
在我们探讨人们如何下决定的头五年,我们建立了十几个有关风险选择的事实,有些事实跟预期效用理论完全相反,有些我们以前曾经观察到,有些是新的。然后我们修改预期效用理论,以它为基础建立我们新的理论,使能涵盖我们的观察,这就是展望理论。
我们对问题的研究取向采取的是心理学中的「心理物理学」研究法,这是德国心理学家费区纳 (Gustav Fechner,1801-1887) 所建立的,费区纳非常执著于心智和物质的关系。从一方面来说,它是可改变的物理公式,例如光能、声音的频率,或是金额;从另一方面来说,它是亮度、声调,和价值的主观经验。很神奇的,这些物理量会引起强度,或主观经验质的改变。费区纳主要想找出观察者心智中的主观数量和物质世界客观数量之间的心理物理法则。他认为对许多向度来说,它们的功能是个对数关系 (logarithmic),增加某个刺激强度的倍数(如乘上1.5或乘上10)就会得到心理量表上同样等级的增加。假如声音的能量从10增加到100物理能量单位,它就会增加4个单位的心理强度,当物理强度从100增加到1,000时,心理强度也会增加4个单位。
白努利的错误
费区纳很明白,他并不是对心理强度与物理刺激强度有兴趣的第一个人。1738年,瑞士科学家白努利 (Daniel Bernoulli) 就有和费区纳一样的看法,并把它应用在心理价值〔现在称之为「效用」(utility)〕和实际金额之间的关系上。他认为10杜卡特金币[4] 的礼物对已经有100杜卡特的人,它的效用跟20杜卡特金币带给已经有200杜卡特的人是一样的。当然,白努利是对的:我们平常在讲收入的改变时,是以百分比来说,就如我们会说,「她加薪30%,」他的想法是30%的加薪会引起穷人和富人同样的心理反应,而增加100元并不会。就如在费区纳的法则中,财富改变所带来心理反应跟原有财富的多寡成反比,所以他说效用是财富的对数函数 (logarithmic function)。假如这个函数是对的,那么10万跟100万的心理距离跟1千万和1亿的心理距离是相同的。
白努利把他在心理学上的卓见应用到财富的效用,并提出一个大胆激进的新研究法去评估赌局。在他那个时代,这是数学家一个重要的研究题目。在白努利之前,数学家假设赌局是用它的期望值来估算:一个可能的结果是,每一个可能结果加权后的总和。例如,期望值:
80%机会去赢100元和20%机会去赢10元
是82元 (0.8×100+0.2×10)
现在问你自己这个问题:你会愿意收到这个赌局当礼物,还是80元稳到手?几乎每一个人都会喜欢确定的东西,所以选80元。假如人们喜欢不确定带来的可能性,因为预期的价值比80元还多了2元,所以他们会选择赌局。白努利指出,人们事实上不是用这个方法来评估赌局的。
白努利观察到,大部分的人是不喜欢风险的(风险就是有机会拿到最低的可能结果),假如他们可选择赌局,或选择得到跟期望值一样多的钱时,他们会选择确定的报酬。事实上,即使确定的钱比预期的价值低,不喜欢风险的人还是会选择确定拿到钱,他会付一点额外费用(premium,溢价)去避免不确定性。在费区纳之前一百年,白努利就发明了心理物理学去解释这种风险规避。他的想法非常直截了当:人的选择不是基于金钱的价值,而是基于结果的心理价值,也就是它的效用。因此,一个赌局的心理价值并不是对可能的金钱结果的平均加权,它是这个赌局结果效用的平均值,每一个效用都要乘上它机率的加权。
表3是白努利计算出来的效用函数:它代表不同财富程度的效用,从100万到1千万。
表3
你可以看到增加100万对已有100万财富的人增加了20个效用单位,但是增加100万给有900万的人,它只增加4个效用单位。白努利认为这递减的财富价值正是人们不爱风险的原因,一般人会去选确定的钱,而不会去选期望值相等或稍微高一点的赌局,请看下面这个选择。
同样机会去赢100万或700万 效用:(10+84)/2=47
或是,
马上拿到400万 效用:60
赌局和确定拿到钱的期望值都是400万杜卡特,但是心理效用不同,因为财富效用递减:从100万到400万,效用的增加是50单位,但是从400万到700万,财富的效用只增加24个单位,赌局的效用是94/2=47(两个赌局结果的效用,是用它的机率1/2来加权)。400万的效用是60,但是因为60比47大,所以这个人会选择拿400万,白努利的卓见是当财富效用递减时,决策者会厌恶冒险。
白努利的论文简洁、聪明,他把这个预期效用的新观念〔他把它叫做「道德预期」(moral expectation)〕用在计算一个圣彼得堡的商人会愿意付多少保险费,以保证他从阿姆斯特丹运香料的船能安全回来。「他非常了解,每一年这个时候,一百艘从阿姆斯特丹到圣彼得堡来的船中,有五艘船会沉没。」他的效用函数解释了为什么穷人会买保险,为什么富人会卖保险给穷人。你可以从表3看到,对一个有1千万的人,损失100万引起4个效用单位的损失(从100到96)。但是,对一个有300万的人,这个损失就是18个单位(从48到30),穷人会很高兴付保险费,把他的风险转到有钱人身上,这就是保险的原理。白努利同时也对有名的「圣彼得堡矛盾」(St. Petersburg Paradox) 提出一个解决的方法;所谓圣彼得堡矛盾是,面对赌局时,即使期望值(可赢得的金币)是无穷大,人们所愿付出的代价却只有数个金币。最令人印象深刻的是,白努利以财富效用为基础所做的风险态度分析,历经了时间考验,三百年后仍在经济分析中流行。
白努利理论的盛行不衰令人惊异,因为它有严重的错误。一个理论的错误很少会在它明确主张的内容被发现,它们通常是隐藏在被理论忽略或默许的假设中。例如:
今天杰克和吉儿每人都有500万元的财富。
昨天,杰克有100万元而吉儿有900万元。
他们是否一样快乐?(他们有同样的财富效用吗?)
白努利的理论假设财富效用是人们快乐和不快乐的原因,杰克和吉儿有着同样的财富,所以理论就认为他们应该一样快乐,但是你完全不需要心理学的学位就知道今天杰克快乐得要飞上天,而吉儿懊恼得要死掉。的确,我们知道杰克要比吉儿快乐很多很多倍,即使他今天只有200万,而她仍有500万。白努利的理论一定错了。
杰克和吉儿所经验到的快乐是决定于最近他们财富的改变,以及他们参考点的财富(杰克100万,吉儿900万)。这个对参考点的依赖在感觉上和知觉上都普遍存在的。同样的声音会依它前面是悄悄声,还是大吼声而得出现在是非常大声或非常小声。要预测一个声音大小的主观经验,只知道它的绝对能量是不够的,你还需要知道它的参考音量,即我们的大脑会自动去比较的音量。同样的,你需要知道背景才能预测一块灰色的小方块在纸上会看起来是浅灰或深灰。你需要知道参考点才能预测一个数量的财富所带来的效用。
另一个白努利理论的缺点请看下面这个例子:
安东尼目前的财富是100万。
蓓蒂目前的财富是400万。
接着,他们两个都有机会选择是要参与赌局还是要确定的选项:
赌局:最后得到100万或400万的机会是相等。
或,
确定的事:肯定能拥有200万。
在白努利的理论中,安东尼和蓓蒂面对同样的选择,假如他们选择赌局,他们预期的财富会是250万,假如他们选择确定的事,他们预期的财富是200万。白努利预期安东尼和蓓蒂去做同样的选择,但是这个预期是不对的。在这里,理论再一次做出错误的预测,因为它没有考虑到参考点。从参考点来看,安东尼和蓓蒂的选择会不一样,假如你能想像自己是安东尼或蓓蒂,你会马上看到目前的财富情形跟选择会很有关系。下面是他们会怎么想:
安东尼(他目前有100万):「假如我选择确定的事,我的财富马上翻一倍,这是非常吸引人的事,但是假如我去赌,我有机会使我的财富变成四倍或是一毛都没赢到。」
蓓蒂(她目前有400万):「假如我选择确定的事,我会损失一半的财富,这事太可怕了。但是假如我去赌,我有同样的机会去输掉四分之三的财富或一毛都没输掉。」
你可以看到安东尼和蓓蒂会做不同的选择,因为200万会使安东尼很快乐,而使蓓蒂很懊恼,也请注意确定的结果跟最糟的赌博结果不同:对安东尼来说,他的差别是财富翻倍或没有赢到钱。对蓓蒂来说:这个差异是失去一半的财富或失去四分之三的财富。蓓蒂会比安东尼更愿意去冒险,别人如果面对这样的不好选择,他们也会选去赌一下。安东尼想的是赢钱,蓓蒂想的是输钱,他们的心理是完全不同的,虽然他们面对的可能财富情况是相同的。
因为白努利的模式缺少参考点,预期效用理论没有办法表现出这个事实──即结果对安东尼很好,对蓓蒂不好。他的模式可以解释为什么安东尼不愿去冒险,但是没有办法解释为什么蓓蒂会愿意冒险。我们看到可供选择的条件很不好时,创业家和一般人都会选择去赌一下命运。
这些都是非常明显的事,不是吗?我们可以很容易想像白努利自己建构相同的例子,发展出比较复杂的理论来解释这些现象。但是不知为何他没有。我们可以想像他的同事不同意他的理论,或是后来的学者在读到他的论文时,会拒绝接受他的理论,但是不知为何,他们也没有。
我不懂的是,这么容易被看到漏洞的结果效用理论,怎么可能流行这么久而没有被人发现?因为举个反例来打击它是太容易了。我只能从我自己身上看到的学者心智的缺点来解释。我把它称之为「理论导致盲点」(theory-induced blindness):一旦你接受了一个理论,并且在你的思考上做为一个工具去使用它,你就没有办法去注意到它的缺点了。假如你观察到一件事不符合你的模式,你会假设它一定有个很好的解释,但是你并没有看到。你给这个理论比较宽容的空间,你相信那些也接受这个理论的专家,许多学者一定也曾想过这些例子,也可能想到效用理论不能解释杰克和吉儿或安东尼与蓓蒂的故事,但是他们没有追究下去,没有说:「这个理论错得很厉害,因为它忽略了一个事实,即效用是依附在这个人的财富历史,并不是只在现在的财富而已。」就如心理学家吉尔博特 (Daniel Gilbert) 观察到的,「不相信」是个很难的工作,而系统二很容易就累了。
说到白努利的错误
「三年前,他拿到2万元奖金,非常快乐,但是现在他的薪水已经调涨了20%,所以他需要更高额的奖金才会得到同样的快乐了。」
「两个候选者都愿意接受我们给的薪水,但是他们不会有同样的满意度,因为他们的参考点不同,她目前的薪水高了很多。」
「她为了赡养费告他,她其实想要和解,但是他宁可上法庭,这不奇怪──和解对她有好处,所以她不要冒险。他正好相反,他面对的选择都很差,所以他愿意冒险去上法庭。」
26 展望理论
特维斯基和我能发现白努利理论的核心漏洞真是运气好,因为它是技术和无知的幸运组合。在特维斯基的建议下,我去读他书中有关著名学者如何经由请人们对赌局做选择,来测量金钱的效用。这些实验都是测量财富的效用,在1美元的范围内,改变财富(即赢和输的赌注都非常小)。这就有问题了,人们会依很小的财富差异来评估赌局吗?你怎么能期望用研究赢得几分钱、输掉几分钱的反应,来学习财富的心理物理学是怎么回事[1]?心理物理学理论近期的发展建议,如果你要研究财富的主观价值,你就直接问财富有关的问题,不要问财富改变的问题。我当时并不知道很多的效用理论,所以我不会因尊敬而看不见它的缺点,我在读它时,的确很困扰,为什么著名学者所设计的实验会偏离真实生活的情境。
当特维斯基和我在第二天见面时,我跟他反应我的困扰,那只是个模糊的想法,并不是发现。我全心期待特维斯基会替我解惑,然后引导我上正途。但是他完全没有这样做,他马上看到这跟现代心理物理学的相关性。他记得经济学家马可维兹 (Harry Markowitz)(后来因财务研究拿到诺贝尔奖)曾经提出一个理论,效用是连在财富改变上,而不是财富本身的状态。马可维兹的想法已经流行了四分之一个世纪,但是没有引起很多人的注意。然而我们马上知道这才是该走的路,我们计划要发展的理论应该要界定结果是获利还是损失,而不是财富的状态。我们对心理学上知觉的知识和对经济学上决策理论的无知,使我们的研究往前跨一大步。
我们很快就知道我们已经克服了一个大的「理论导致盲点」的案例,因为我们所拒绝接受的看法,现在看起来,它不但是错的,而且是不合理的。我们很高兴地发现,当钱很多的时候就无法去评估我们目前的财富效用,所以从财富效用去推论出对小小改变的态度是不可能的。当你了解你过去为什么看不见这么明显的错误时,你就知道你在理论上进步了很多。不过我们还是花了很多年的时光去探索结果是获利还是损失的意义。
在效用理论,获利的效用是用比较两个状态的财富来评定的。例如,当你的财富是100万元,得到额外500元的效用是1,000,500元的效用和100万元效用之间的差距。假如你有很多钱,损失500元的负效用是这两个财富状态效用的差距。在这个理论中,得和失的效用差别只在它们的正负号上(+或-)。它没有办法去代表这个事实──即失去500元的负效用会比赢500元的正效用大。正如「理论导致盲点」情况下可能发生的问题,得和失之间的可能差异是既没有被预期、也没有被研究的。这个得和失的差别被假设是没有关系的,所以没有必要去检验它。
特维斯基和我没有马上看出,我们把注意力放到财富的改变上,其实打开了一扇可以探索新题目的门。我们主要是关心赢的高低机率在赌局中的差异。有一天,特维斯基很随意的问了一句,「输的话是怎么样?」我们很快地发现我们熟悉的风险规避被寻找风险所替代了。请看下面这两个问题:
问题一:你会选哪一个?
确定拿到900元或有90%的机会赢得1,000元。
问题二:你会选哪一个?
确定失去900元,或有90%的机会失去1,000元。
在问题一你可能会厌恶冒险,跟绝大多数的人一样,得到900元的主观价值比90%的机会赢1,000元高。这个规避风险的选择不会令白努利惊讶。
现在来看你在问题二的偏好。假如你像大多数的人一样,你会选择赌一下。对选择寻求风险的解释,正好跟选择规避风险的解释相反。确定失去900元的负价值大于90%机会失去1,000元的负价值。必然的损失是非常令人厌恶的,也会使你去冒险一试。在后面我们会看到机率 (90% vs. 100%) 的评估也跟问题一的风险规避和问题二的选择赌博有关系。
我们并不是第一个发现人们在所有的选择都是坏的时候,会更愿意去冒险,但是「理论导致盲点」的影响很广,因为主流的理论并没有提供一个可能的方式去解释对得和失风险的不同态度,所以态度的不同一定会被忽略。相反的,我们决定去看结果是得还是失,引导我们聚焦在差异上面。这个对风险不同态度的观察很快就得到显著的进展:我们找到一个方式去呈现白努利选择模式的核心错误。请看:
问题三:不论你原来有多少钱,你现在又多了1,000元。
请你从下面两个选项中做出选择:
50%机会赢1,000元,或确定拿到500元。
问题四:不管你原来有多少钱,你现在又多了2,000元。
你要从下面两个选项中做出选择:
50%的机会失去1,000元,或确定少500元。
你很容易看到,就最后的财富状态来说,问题三和问题四是相同的,这是白努利理论最关心的事。你可以选择确定结果,使你比现在多1,500元,或接受赌局,你有相同的机会多1,000元或2,000元,在白努利的理论中,这两个问题应该引出同样的偏好。问一下你的直觉,你可能会猜到其他人怎么做。
- 在第一个选择(问题三)中,绝大部分的人喜欢确定的东西。
- 在第二个选择(问题四)中,绝大部分的人偏好赌局。
人们在问题三和问题四有不同的偏好,这就是白努利理论关键点的一个决定性反例 (counterexample)。假如财富的效用是它唯一关心的,那么,相同问题的对等陈述应该得到同样的选择。比较这两个问题就显现出参考点的重要性,只有从参考点上去考虑,选择 (option) 才可以被评量。在问题三中,这个参考点比目前财富高了1,000元;在问题四中,则多出了2,000元。所得增至1,500元在问题三中是得到500元,在问题四却是失去500元。你很容易设计出像安东尼和蓓蒂故事的结构。
在你做决定之前,你对得到1,000元或2,000元这样礼物的关注程度有多少?如果你像大多数的人一样,你几乎不会去注意这件事,因为你没有理由去注意它。这礼物是包括在参考点内,而参考点一般是被忽略的,你知道你自己的偏好,但是效用理论并不知道──你对风险的态度不会因为你的财产多了或少了几千块钱(除非你非常穷)而改变。而且你也知道你对获利和损失的态度不是从你评估财富有多少而来的。你喜欢赢100元、不喜欢输100元并不是这数字改变了你的财富,你就是喜欢赢不喜欢输,而且你不喜欢输的程度胜过你喜欢赢。
这四个问题点出了白努利模式的弱点。他的理论太过简单,缺少了「参考点」。在白努利的理论中,你只需要知道你财富的状况就能决定它的效用;但是在展望理论中,你还需要知道参考点。所以展望理论比效用理论复杂,在科学上,复杂被认为是一种成本,除非证明它能解释现有理论所不能解释,这就是我们要面对的挑战。
虽然特维斯基和我那时并没有在研究心智的两个系统模式,但是我们很清楚看到展望理论的核心有三个认知特质。这三个特质在评估财务结果上扮演重要的角色,而且对许多自动化的历程,如知觉、判断和情绪都很重要,它们应该被视为系统一的操作特质。
- 评估是相对于中性参考点而言,所谓参考点又被称为「适应程度」(adaptation level),你很容易做一个实验来了解这个原则。请放三碗水在你前面,把冰块放进你左边的碗中,把温水加到你右边的碗中,中间那碗水应该是同室内温度。把你的手分别放进冷水中和温水中两分钟,再把两手一起放入中间那个碗中,你会感到一手热,另一手冷。财务的结果也是一样,最常见的参考点是现状,但也可以是你预期的结果,或许是你觉得你应该有的结果,例如你同事分到的红利或加薪。比你参考点好的结果就是「得」或「赢」(gain),比参考点差的就是「失」或「输」(loss)。
- 递减敏感度原则适用到感官和评估财富的改变上。在黑暗的房间里,打开一盏小灯,就会有很大的效应,但是同样的光度在一个很亮的房间里就不会被注意到。同样的,900元和1,000元的主观差距比100元和200元的差距小得多。
- 第三个原则是规避损失,当直接比较时,损失带来的感觉大于「得」,得和失(或是说,正向预期和负向预期)的不对称性有演化上的历史。优先处理威胁的有机体比较有机会看到明天太阳的升起,也比较有机会繁殖,把基因传下去。
这三个规范结果价值的原则可以用图10来表示。假如展望理论有一面旗子的话,上面的图一定会是图10。这张图表示得与失的心理价值,它就是展望理论价值的「承载者」(carrier)(它不像白努利的理论,它的承载者是财富的状态)。这张图有两个显著的部分,在中性参考点的左边和右边。一个很鲜明的特质是它的S形,代表了得与失的递减敏感度;此外,S形的两个曲线不是对称的,斜线的函数在靠近参考点时,急剧地改变:对「失」的反应强过对「得」的反应,这就是「损失规避」(loss aversion)。
图10
对损失规避
我们在生命中面对的选择很多是忧喜参半的:有失的风险,也有得的机会,我们必须决定要接受赌局还是拒绝它。投资者在评估一个新创的公司时,律师在考虑要不要申告,战场上的将军在想怎么攻击,政客在考虑要不要参选,他们都面对胜利或惨痛失败的可能。下面是一个得失机会参半的例子,请检视你自己对下面问题的反应。
问题五:你被邀请去参加一个抛铜板的赌局。
假如是反面,你输100元。
假如是正面,你赢150元。
这个赌局吸引你吗?你会接受吗?
要做出这个决定,你必须平衡你赢150元的心理利益和你输100元的心理损失,你有什么感觉?虽然这个赌局的期望值显然是正向的,因为你赢的会比你输的多,但是你可能还是不喜欢,大部分人也不喜欢。拒绝这个赌局的是系统二,但是关键在情绪的反应,那是系统一的工作。对大部分人来说,失去100元的恐惧大于赢150元的希望。我们从很多这种观察中得出结论,失比得给人的感觉强力得多,我们会放大损失,人是损失规避的。
你可以问你自己下面这个句子来测量你对损失规避的程度:我至少要赢多少才会平衡掉我对失去100元的感觉?对很多人来说,这数字大约是200元,是损失金额的两倍。「损失规避的比例」(loss aversion ratio) 在好几个实验中被发现是在1.5到2.5之间。当然这是个平均数,有些人对损失规避大于其他人。在金融市场的专业风险承担者比较能忍受损失,可能是因为他们对每一次涨跌已经不再有情绪上的反应了。当一个实验受试者被指示要像商人那样思考时,他们也变得比较不规避损失,对损失的情绪反应也快速下降(这是用生理指标来测试情绪反应强度)。
如果要检验你在不同的赌注,对损失规避的比例有多高,你可以问自己下面这个问题,但是请先忽略任何社会考量,不要假装很勇敢或很小心谨慎,聚焦在可能的损失和平衡这个损失的主观感觉上。
- 假设有一个赌局,你有50%的机会损失10元,请问你至少要赢多少钱,才会使你愿意去赌?假如你说10元,那么你对风险没有感觉,漠不关心;假如你说少于10元,你就是寻求风险;假如你的回答是10元以上,你便是规避损失。
- 假设在一个抛铜板的赌局中,你可能会损失500元,请问你要赢多少才会平衡掉你损失的感觉?
- 如果损失是2,000元呢?
当你在做这个练习时,你可能会感觉到你损失规避的相关系数随着金额的增加而上升,但不是很剧烈。假如你的损失是具有毁灭性的,或是你的生活型态被威胁了,你当然不会去赌,这个损失规避的相关系数在这种情况下是非常大,可能是无穷大──有些风险是你不会去尝试,就算运气好时可能会赢几百万。
再看一下图10可能会帮助你清楚一点这章的主题。在本章中,我提出两种主张,许多读者可能会觉得它们是相互矛盾的。
- 在得和失都可能出现的混合赌局 (mixed gamble) 中,损失规避引发极端的风险规避选择。
- 在肯定会有损失和有可能出现更大损失的选择中,递减敏感度会引发冒险的行为。
这两者并没有矛盾。在混合赌局中,可能的损失会被放大两倍,你可以从比较图10得和失价值函数的斜率看出。在坏的(有损失)情况,价值曲线的弯度(递减的敏感度)引发冒险的欲望。确定失去900元的痛苦大于90%的机会失去1,000元的痛苦。这两点是展望理论的重点。
图10显示由得变成失,价值函数的斜率突然变陡,因为即使赌注相对于你的财富微不足道,你规避损失的心理仍然很强烈。对财富现状的态度有可能解释对这小小风险极端强烈的厌恶吗?这是「理论导致盲点」的一个惊人例子,这么明显的失误,两百五十多年来却没有被任何学者发现。在2000年时,行为经济学家罗宾 (Matthew Robin) 终于在数学上证明,用财富效用去解释损失规避是可笑而且注定失败的,他的数学证明引起了别人的注意。罗宾的理论显示,拒绝一个赌注小又有利的赌局,在数学上是犯了一个厌恶冒险的愚蠢错误。例如,他说大部分的人会拒绝下面这个赌局:
50%的机会失去100元,50%机会赢200元。
他说根据效用理论,拒绝这个赌局的人也会拒绝下面这个赌局:
50%机会输200元,50%赢20,000元。
但是当然没有任何人在心智正常的情况下会拒绝这个赌局,在他们精采的论文中,罗宾和瑟勒谈到这个证明,他们说「假如有一个很大的赌局它的预期报酬是9,900元,而输200元以上的机率是零,如果你拒绝这个赌盘的话,即使是一个很烂的律师都会叫你宣称你是法律上失智,这个拒绝不算数。」
或许他们被热情冲昏了头,他们用蒙蒂蟒蛇[2] (Monty Python) 的一个节目来作结尾,这个节目是一个人买的鹦鹉死了,他拿回宠物店去退,店员坚持这只鹦鹉没有死,只是在休息,这位客人用了很多的形容词,很长的描述来说明这只鹦鹉已经死了,讲到最后,他高声说,「这是一只前-鹦鹉」(this is an ex-parrot) 罗宾和瑟勒继续说:「这是经济学家承认预期效用理论是一个『前-假设』(ex-hypothesis) 的时候了。」许多经济学家认为他们太轻佻,然而,接受财富效用可以解释人们对小损失的态度,是受「理论导致盲点」的引导,已被幽默地讽刺了。
展望理论的盲点
到现在为止,我已经颂扬了展望理论的所有美德,批评了理性模式和预期效用理论。现在是平衡报导的时候了。
大部分经济学领域的研究生听过展望理论和损失规避,但是你不会在普通经济学的教科书中看到这些名词,我有时会为此而感到难过。但是事实上,它很合理,因为理性是基础经济学理论的核心角色。大学部学生所学的标准概念和结果如果用「经济人不会犯愚蠢的错误」来解释会比较容易一些。这个假设是绝对需要的,假如介绍了展望理论,发现展望理论中的普通人对结局的评估常是不合理的短视,对经济学面子有点不好看。
他们不把展望理论放在经济学导论的教科书中是有道理的,经济学的基本概念其实是个学术上的工具,即使把它简化,很不切实际地去假设这个与市场互动的经济代理人的本质是什么,它还是不容易被了解。如果再去提出问题,质疑这个代理人的假设对不对,就会使学生更加不懂,甚至令人泄气。所以把优先顺序设定为先让学生学会这个领域基本的工具,其他的以后再说,看起来就很合理了。此外,展望理论中「人不是理性的」概念其实跟经济学理论的预测功能没什么相关。这些经济学理论在有些情境可以准确地预测,对很多情境都提供了好的估算。不过,在有些场合,差异却很显著:展望理论所描述的普通人是受到获利和损失情绪的立即影响,而不是受到长期财富的展望和整体效用的影响。
我在讨论白努利模式的缺点时强调「理论导致盲点」,这个盲点经过两个世纪都没有被人挑战。但是当然理论导致的盲点并不限于预期效用理论。展望理论也有它的缺点,理论导致的盲点也对这个缺点作了贡献,就像它使人们接受效用理论一样,接受了展望理论。
请看一下展望理论的假设──参考点,通常现状的价值是零。这个假设似乎很合理,但是它导致一些很荒谬的结果。请好好看一下以下这个例子,拥有它会是什么样?
A.有百万分之一的机会去赢得100万。
B.90%的机会去赢12元,10%的机会什么都没有。
C.90%机会去赢100万,10%的机会什么都没有。
什么都没赢是这三个赌局中的可能结局,展望理论给这三个例子同样的价值。什么都没赢是参考点,它的价值是零。这些例子跟你的经验符合吗?当然不合,什么都没赢在头两个例子中不具影响性,给它零价值是有道理的;相反的,在第三个情况,什么都没有赢就会引发很强烈的失望。就像老板非正式地答应加薪,或有机会赢到很大一笔钱会设定一个新的参考点。根据你的预期,什么都没赢是很大的失落,它变成损失,展望理论不能解释这个现象,因为当它非常不可能或当另一个选择非常有价值时,它不允许一个赌局的价值(在这里就是什么都没赢)改变。简单的说,展望理论不能处理失望。然而,失望和预期失望都是真实的,不去承认它就像我在批评白努利理论所用的反例一样,是个明显的缺点。
展望理论和效用理论都不允许后悔。这两个理论都有同样的假设。几种可能性的选项是分开的和独立评估的,价值最高的被选上。这个假设绝对是错的,下面这个例子会显示给你看。
问题六:有90%机会赢100万,或确定得到50元。
问题七:有90%机会赢100万,或确定得到15万元。
比较这两个问题中,选了赌局而没有赢的痛苦。没有赢在这两个例子中都是失望,但是问题七中的痛苦是更多的,因为你知道假如你选了赌局又输掉的话,你会后悔自己因贪婪而失去确定拿到15万元。后悔是你觉得你应该怎么做而你没有这样做。
好几个经济学家和心理学家都提出决策制定的模式,这些模式都是基于遗憾、后悔和失望的情绪。我可以很公平地说,这些模式都比展望理论的影响力小,这个理由也很有指导性 (instructive)。后悔的情绪和失望都是真的,决策制定者当然在下决定时会预测到这些情绪。问题是,后悔理论没有什么动人的预测使它们跟展望理论不同,而展望理论至少比较简单,科学是偏好简单,若有简单就不要选择复杂。展望理论跟预期效用理论竞争时,它的复杂程度是比较可以被接受,因为它真的可以预测出预期效用理论所不能解释的观察。
丰富、真实的假设并不足以使一个理论成功,科学家把理论当作工具袋,他们不会替自己找麻烦,拿个比较重的袋子,除非这个新工具非常有用。展望理论被许多学者接受,并不是因为它是「真的」,而是因为它的观念。它的参考点和损失规避的观念得出新的预测,而这些预测后来被证实是对的,我们真的很幸运。
说到展望理论
「他深受极端的损失规避之苦,这使他拒绝非常好的机会。」
「她有那么巨大的财富,她对极小的得和失的情绪反应就一点道理也没有了。」「他把损失加权到获利的双倍是很正常的。」
27 禀赋效应
即使你从来没有上过经济学的课,你可能看过图11或跟它相似的图,这曲线是一个人对两个东西的「等优图」(indifference map,又称无异曲线)。
经济学导论班的学生会学到这个图上的每一点代表着收入和休假天的组合,每一条曲线上的每一个组合都有着同样的效用。假如人们不管现有的所得和休假天数有多少,都愿意以相同价格「卖出」休假日,以赚取额外收入,这时曲线变成平行的直线。曲线凸向原点表示效用递减:愈多休假天在手上,你愈不在乎多一天休假,而每增加一个休假天,休假天价值就比之前的休假日减少一点。同样的,你的收入愈高,你愈不在乎多赚几块钱,你愿意放弃钱去多得一天休假的欲望就高起来了。
在等优线上的每一点都有相等的吸引力,这就是等优线的意思:不管你在这条线的哪里。所以假如A和B在同一条等优线上,它们对你而言就没有任何差别,也就没有必要在两点间移动,这个图在过去一百年的经济学教科书中一定有,几百万个学生都曾看过,但是很少人注意到它少了些什么。再一次,强大优雅的理论模式使学者和学生看不见它的严重缺陷。
图11
这张图中少的是代表这个人目前收入和休假的点,假如你是拿薪水的雇员,你老板跟你说好的薪水和休假天应该标示在这图上,这是你的参考点,你的现况,但是这图并没有显示出来。画这张图的理论家的用意就要你相信参考点是不重要的,但是现在你已经知道它是很重要的,这是白努利错误的重现!这个等优线是假设任何时候,你的效用完全决定于你目前的状态,过去是不重要的、不相干的,你对未来工作的评估与你现在的工作不相干,这个假设是完全不真实。
在等优图中省略参考点是「理论导致盲点」令人惊异的例子,因为我们常常碰到参考点非常重要的情况。在劳资双方协商时,大家都很清楚参考点就是目前的契约,协商要聚焦在就那个参考点要求彼此做出让步。损失规避所扮演的角色在协商时也很清楚:让步会痛。你有很多损失规避的个人经验,假如你曾换工作或换地点,或甚至只是考虑要不要换,你一定会以现在的情况做为参考点,再看看新工作是更好还是更坏,你也会注意到比起新工作的好处,不利的地方会被放得更大,这就是损失规避起了作用。人们很难接受比原来更糟的改变。假如一个失业者能接受的最低工资平均是他原来工资的90%,在一年内能接受的薪资降幅不到10%。
若要感受到参考点对我们选择所产生的力量,请看一下艾尔伯特和班这对「极乐双生子」的情形,他们有着同样的品味,同样起薪的工作,收入很少,休假很少,他们目前的情况是图11中的地方。公司给他们两个改进目前职位的选择。A是加薪1万元,B是每个月多一天休假,请他们选择。因为A和B是等优(无差异),所以他们决定丢铜板,艾尔伯特得到加薪,班得到额外的休假。过了一段时间,这对双胞胎也适应了他们的新职位,现在公司说,假如他们愿意调换工作,他们可以互换。
图11的标准理论显示偏好是稳定不变的,A和B是同等的有吸引力,它们不需要或只需要很少的诱因去交换。但是展望理论正好相反,它断言这对双胞胎绝对会留在原来的职位上不愿意调换,这对现况的偏好是损失规避的后果。
让我们先来看艾尔伯特,他是图表上的○1,从参考点看来,他发现这两个选择都一样有吸引力。
选A:得1万元加薪。
或,
选B:一年有12天休假。
艾尔伯持选了A后就改变了他的参考点,当他考虑换到B时,他的选择有了新的结构。
留在A:没有得,没有失。
或,
换到B:一年有12个休假天,但是薪水少了1万元。
这就是损失规避的主观经验。你可以感受到:薪水少1万元是很坏的事,即使12天的假期跟加薪1万元一样让你动心,但是12天不足以补偿1万元的损失,艾尔伯特会留在A的位置上,因为变动的坏处大于好处。班也是同样的,他也是希望留在原来的工作上,因为不想失去现在变得很珍贵的休假天,这种感觉超越得到额外的收入。
这个例子点出了两个等优曲线标准模式所不能预测的地方,第一,人的偏好不是固定的,而是跟随参考点改变;第二,变动工作所带来的不利会被放大,而且比有利的地方放得更大,导出偏好现状的偏见。当然,损失规避并不是说你永远不会喜欢改换工作:一个机会带来的好处可能超越损失规避,损失规避只是暗示选择总是强烈偏向参考的情境(一般来说,它是偏向小的改变而不是大的改变)。
传统的等优图和白努利用财富状态来表示结果都有一个共同的错误假设:各种事务状况的效用只跟目前状态有关,跟过去的历史无关。行为经济学家一项很大的成就,就是改正了这个错误。
禀赋效应
一项运动或一个研究法是什么时候开始的?这是一个很难回答的问题,不过行为经济学是什么时候开始的,倒是可以很准确地回答出来。在1970年代的初期,瑟勒还是一个研究生的时候,他在非常保守的罗契斯特尔大学 (University of Rochester) 经济系就读,他喜欢搜集理性经济模式所不能解释的行为来自娱,尤其是教授们不理性的经济行为。
R教授〔现在知道是罗赛特 (Richard Rosett) 教授,他后来做到芝加哥大学商学院的院长〕是一个标准经济理论的坚决拥护者,也是一个很高段的品酒者。瑟勒观察到R教授非常不愿把他酒窖中的收藏卖出去──即使一瓶酒可卖100元也舍不得(在1975年时,这是很多的钱)。R教授在酒庄拍卖酒时买酒,但是无论如何从来不超过35元,若是价钱在35元和100元之间,他不买也不卖。这个大差距是非常不符合经济学理论的,按理论,R教授要为某瓶酒定一个价格。假如某瓶酒对他来说值50元,那么只要超过50元,他应该就愿意卖。假如他自己没有这瓶酒,他应该愿意花任何钱(只要不超过50元)去买。照说,愿卖和愿买的价格应该是相同的,但是事实上,他愿意卖的最低价(100元)比他愿意买的最高价(35元)高了很多。拥有这瓶酒显然增加了酒的价值。
瑟勒发现很多他称之为「禀赋效应」(endowment effect),尤其是那些没有规律性买卖的商品。你可以很容易想像你自己在同样的情境。假设你手上有一张热门音乐会的票,这个音乐会的票早就全卖光了,目前是一票难求,你是用平常200元一张的票价买的。因为你是这位歌星的粉丝,最多愿意花500元去买票。现在你手上有票,你从网路上发现有人愿意出3000元买它,你会卖吗?假如你像大多数票已抢购一空的音乐会的听众一样,你不会卖,你最低的卖价是3000元以上,而你最高的买价是500元。这是一个禀赋效应的例子,也是一个标准经济学理论的信徒所不能理解的地方。瑟勒在寻找一个方法来解释这个令人困惑的行为。
机会来了,瑟勒在研讨会上遇见了一个我们以前的学生,并拿到了展望理论的草稿。瑟勒说他看到草稿时,非常的兴奋,因为他马上知道展望理论损失规避的价值函数可以解释这个禀赋效应,以及他所搜集的其他困扰的现象。解决的方式是放弃R教授对他拥有的酒有独特效用的标准模式想法,展望理论认为愿意去买或卖酒决定于参考点──不论R教授目前有没有拥有这瓶酒。假如他有,他会感受到割爱之痛。假如他没有,他会感受到拥有这瓶酒的喜悦,这个价值是不相等的,因为损失规避:放弃一瓶好酒的痛苦比得到一瓶同样好的酒的快乐还大。记得前面一章得和失的图表吗?损失的函数曲线斜率比较陡,我们对损失的反应大于相对等「得」的反应。这是瑟勒一直在寻找的对禀赋效应的解释,也是第一个把展望理论应用到经济学的困惑上,它是行为经济学发展的一个里程碑。
瑟勒得知特维斯基和我会在史丹佛大学后,也想办法去那边访问一年,这是非常有收获的一年,我们从彼此身上学到了很多而且变成好朋友。七年以后,他跟我又有机会有一年的时光在一起互相讨论心理学和经济学。赛吉基金会 (Russell Sage Foundation) 是长期赞助行为经济学的一个基金会,给了瑟勒第一笔研究经费让他可以跟我在温哥华一年。在那一年里,我们跟当地的经济学家如奈区 (Jack Knetsch) 紧密合作。我们都对禀赋效应,公平经济的规则和辛辣的中国菜有很大的兴趣。
我们研究的起点是禀赋效应并不是很普遍。假如有人请你换5元的钞票,你换给他5张1元的钞票并不会有任何损失的感觉。当你去买鞋子,把钱给店员时,你也不会有什么损失规避,那些卖鞋子换现金的商人更不会有损失的感觉。的确,从他的观点来看,他给你的那双鞋子,本来就是钱的代理人,他是希望从顾客手中收到钱。此外,你可能也不会觉得付给店家钱是损失,因为你同样把这个钞票当作你想买的鞋子代理人。这些每天例行的交易跟换5元纸钞没什么两样,对买卖双方都没有损失规避可言。
那么,这些市场交易和R教授不情愿卖他的酒,或不肯把超级杯足球赛 (Super Bowl) 的票高价卖给别人有什么差别呢?这个差别是商人把鞋子卖给你,你从口袋掏钱买鞋子是交易 (for exchange),钱本来就是为了交换的。但是其他物品,如酒和足球赛的门票是要拿来「用的」,要消耗喝掉或去观看享受的。你的休闲时间和生活标准不是拿来卖或交换的。
奈区、瑟勒和我设计一个实验来凸显物品是拿来用的或交换的对立差别。我们从实验经济学的始祖史密斯 (Vernon Smith) 那里借了一个实验设计,很多年以后,我跟史密斯共同得到诺贝尔经济学奖。在这方法里,将有限数量的代币发给参加实验的受试者在「市场」使用。等实验结束时,手上还有代币的学生可去换现金,但每个人代币的兑换价值不一样,以呈现在市场上交易时,有些东西对某些人价值比较高的事实。一个代币对你可能只值10元,对我可能就是20元,以任何介于两者间的价格进行交换对我们两人来说都有利。
史密斯用这个方法来展示基本供需的关系。你可以连续买或卖你的代币,其他人也会对你的公开叫价做出反应。每个人都会观察这些交换,看到代币换手时的价格,这些结果就跟物理现象一样有规律。它就像水往低处流一样,那些拥有代币,但是代币对他们没有什么价值(因为他们的兑换价值很低)的人,会把他们的代币卖给对代币评价比较高的人,以获取利益。当交易结束时,代币都集中在那些可以从实验者手上拿到最多钱的人手上。这市场的魔术还真行!此外,经济学理论正确地预测了市场最后的价格以及代币换手的数量。假如在市场中一半的受试者是被随机分配代币,这理论预测一半的代币会被换手。
我们把史密斯这个方法的修正版用在我们的实验中。每一次开始时,都有好几回代币换手,完全重复了史密斯的发现。估计的交换次数跟标准理论估计的非常接近或完全相同。这些代币会有价值当然就是因为它可以从实验者的手上换现金。它自己本身没有任何价值。然后我们模拟一个类似的市场,有一个物品是我们预期学生会喜欢去用的:一个非常漂亮的咖啡杯,上面印有大学的校徽,这个咖啡杯当时值6元(现在会是双倍了)。我们随机把杯子分给一半的受试者。卖杯的人把杯子放在他的前面,却请买的人去看看旁边卖者的杯子,卖者都要把卖的价钱列出来,买的人要用他们自己的钱去买。这个结果非常戏剧化:平均卖价是平均买价的两倍!而估计交易的数量,比标准理论预测的要少一半。市场的魔术在拥有者(卖者)想要去使用的物品上破功了。
我们用同样的程序做了一连串的实验,但稍稍改变一点,结果永远是一样的。我最喜欢的一个实验是我们在买者与卖者之间,多增加了一组人──选择者。选择者不像买者必须要花自己的钱去买,选择者可以得到咖啡杯或一笔钱,他们的选择表明那笔钱和得到那样东西一样吸引人。下面是结果:
卖者 $7.12
选择者 $3.12
买者 $2.87
卖者和选择者之间的差距很大,但事实上他们都面对相同的选择。假如你是卖者,你可以带着杯子或钱回家;假如你是选择者,你也同样有这两个选择。这两组人决策的长期效应是一样的。唯一的差别是当时的情绪。卖者要的高价钱反映出他勉强放弃他已经拥有的东西,这样的勉强你可以在用力抓住玩具不放的宝宝身上看到,当你把玩具拿开时,他会很激动。这个损失规避是建构在系统一的自动评估之中的。
买者和选择者设定了相似的现金价值,虽然买者必须掏钱去买,而选择者是免费得到。这就是我们要的,我们创造出一个情境,让买者没有经验到花钱去买杯子的损失感觉。大脑造影的证据确定了这个差异。卖一个我们平常用的东西会活化大脑中与厌恶和痛苦有关的区域。买也会活化这个区域,但是只有在价格太高时──当你觉得卖者拿到的钱超过交换的价值时。大脑的影像也显示,当你买到一件便宜货时,会非常的高兴。
卖者所设定的咖啡杯现金价格比买者和选择者设定的高了两倍。这个比例非常接近风险选择中的损失规避相关系数。这个2比1的比例在很多经济学领域的研究中都有看到,包括对家庭用品价格改变的反应。就像经济学家会预测顾客或消费者在价格下降时他们会增加鸡蛋、橘子水,或鱼的购买量;在价格高时,会减少消费。然而,跟经济学理论预测相反的是,价格上涨的效应(对参考点来说是损失)是得的效应的两倍大。
这个咖啡杯的实验到现在还是禀赋效应的标准展示。奈区在差不多同时,报告了一个更简单的实验。他请两班学生填一份问卷,然后给他们一个礼物,这个礼物在实验期间一直摆在他们面前。在一个情境,这个礼物是很昂贵的笔,在另一个情境是一块巧克力。上课结束时,实验者给同学看另一个礼物是什么,允许他们去交换。大约只有10%的人愿意去交换,大部分收到笔的人就仍然拿笔,拿巧克力的也仍然拿巧克力。
像商人一样思考
展望理论基本的想法是参考点存在,损失会比同额的获利被放大很多。多年来,在真实市场的观察,说明了这个观念的威力。有一个关于波士顿市在不景气时,公寓市场情形的研究,特别清楚的显现出这个结果。这个研究的作者比较以不同价格买到类似单位的屋主行为。对一个理性代理人来说,从前的买价是不相干的历史了──现在的市场价格才是有关系的。但是对处于房价下跌时期的普通人来说,情况就不是这样了。那些高参考点(高价买入)的屋主面对较高损失,卖屋时会把房价订得比较高,愿意花比较长的时间去卖他们的房子,最后拿到比较多的钱。
这个卖价和买价的不对称性(或是说在卖和选择之间的不对称性),在一开始接受参考点和损失规避的想法上很重要。然而,现在我们很了解,参考点是不稳定的,尤其在不寻常的实验室情境之下,可以用改变参考点的方式使禀赋效应消失。
当拥有者将商品视为未来交换价值承载者时,他们不想看到禀赋效应出现,这种态度在日常商业活动和金融市场中很普遍。实验经济学家李斯特 (John List) 曾研究过棒球卡大会中的交易,发现交易新手不愿割舍他的棒球卡,但是当交易经验多了以后,这个勉强、不愿意的态度就消失了。比较惊讶的是,李斯特发现,交易经验对新产品的禀赋效应影响很大。
在某次棒球卡大会,李斯特张贴海报请人来做一个很简单的问卷,做完以后,他送受试者一个小礼物:一个咖啡杯或是等值的巧克力。这两个礼物是随机发放出去。当受试者填完要离开时,李斯特对他们说「我给你一个咖啡杯(或一块巧克力),但是假如你要的话,你可以换巧克力(或咖啡杯)」。这是完全重复奈区的实验,李斯特发现,在没有经验的交易者中,只有18%愿意换礼物;相反的,在有经验的交易者身上,完全没有任何禀赋效应:有48%愿意交换礼物。至少在一个正常交易的市场环境中,他们交易时完全没有显示任何的勉强。
奈区也做了一个实验,他稍稍地操弄了一下,禀赋效应就不见了。受试者只有在实际拥有这个物品一阵子,然后才去交易时,会有禀赋效应。赞成标准模式的经济学家可能会说奈区花了太多时间跟心理学家在一起,因为他的实验操弄显示出他对一些社会心理学家认为重要的变项的关注。的确,实验经济学家和实验心理学家在研究方法上的不同处,已经变成他们对禀赋效应的持续辩论。
很有经验的交易者显然学会去问对的问题:「我愿意花多少钱去买这个杯子,这个价钱跟我可以买的其他东西比较起来,我还愿意花同样钱去买杯子吗?」这是经济人会问的问题,而这样问就不会有禀赋效应发生,因为「得的愉悦」和「失的痛苦」的不对称性变成不相干了。
最近心理学对「在贫穷下做决策」的研究显示,穷人是另一个没有禀赋效应发生的团体。在展望理论中,生活在参考点之下的穷人,他们有很多物品是需要但买不起的,所以他们一直「在损失中」(in the losses)。任何赚到的小钱都会看成减少损失,而不是获得。这些钱使他们往参考点更靠近一点,但是穷人永远在价值函数的陡坡上。
穷人的想法跟商人一样,但是内在的动力却很不一样。他们不像商人,穷人不是对得到和放弃中间的差异没有感觉,他们的问题是他们所有的选择都是损失。花在这个东西上的钱是另外一个东西的损失,因为本来可以去买它。对穷人来说,花钱就是损失。
我们都认得那种花钱会肉痛的人,虽然客观上他们非常有钱,在对钱的态度上,也有很大的文化差异,尤其是在一时兴起上花钱或买些小小的奢侈品。这个差异可能可以解释在美国做的咖啡杯研究和在英国做的有差异。美国学生买和卖的价格差异很大,但是同样的实验在英国做,差异就很小。显然,对于禀赋效应我们还有很长的路要走。
说到禀赋效应
「她不在乎她会拿到哪一间办公室,但是公告一出来,她就不愿意交换了,这就是禀赋效应。」
「这个协商一点进展也没有,因为两边都不肯让步,即使他们会得到报酬,他们也不肯放手,损失放大得比获得大太多了。」
「当他们涨价时,人们就不买了。」
「他非常不愿赔本卖出他的房子,这是损失规避在作用。」
「他是小气鬼,把花出去的每一分钱都看成损失。」
28 坏的事件
损失规避的概念是心理学对行为经济学最大的贡献。这很奇怪,因为人们看很多结果都是以得或失来评估,而对损失放得比获利大却一点都不惊讶。特维斯基跟我常开玩笑,我们研究的是我们的祖母早就知道的东西。不过我们有比我们的祖母知道的多一点,现在可以把损失规避放在比较大的两个系统的模式中,而且我们现在可以从生物和心理的观点来看问题,我们也能追踪损失规避的后果,在很多不同的情境中观察到它:当货物在运送的过程中损失时,只有直接现金的损失才会得到补偿;大型的改革通常是失败;职业高尔夫选手在救平标准杆 (par) 的那次推杆,比推进博蒂 (birdie)(比标准杆低一杆)时更准确。虽然我的祖母很聪明,她也会很惊讶我们能从她认为很显然的事中,做出这么多特定的预测出来。
图12
当你看左边的图时,你的心跳加快了,甚至在你能说出为什么它很怪异之前,心跳就加快了。一阵子过后,你可能会认出这是一个很害怕的人的眼睛。右边那张图的眼睛比较窄,因为笑的时候,脸颊升高,遮住眼睛了,这是张快乐的脸──它所引起的反应没有那么兴奋。实验者把这两张图给躺在大脑扫瞄机的受试者看,每一张图看百分之二秒,然后立刻用视觉噪音 (visual noise) 把它盖过去。所谓视觉噪音就是由黑白小方块随机叠成,它可以把前一张图像从受试者视觉暂留中扫掉[1]。没有任何一个受试者有意识地感觉到他有看到之前眼睛的图片,但是他大脑中有一个部分却是明显地看到了:他大脑中的杏仁核 (amygdala) 这个「威胁中心」就活化起来了。有关威胁的讯息可能是经由特别快的神经管道传递,直接进入大脑处理情绪的地方,越过了视觉皮质──支持「看见」这个意识行为的地方,同样的神经回路也使愤怒的脸(它可能是个威胁)处理得比快乐的脸快。有实验发现在一堆笑脸中,愤怒脸会特别突出,一眼就看到,但是在一堆愤怒脸中的快乐脸却不会。人类的脑和其他动物的脑有一个特别的机制,对坏消息特别敏感,假如大脑可以在侦察敌人的速度上快几百分之一秒,就增加了这个动物的存活率,把基因留下来。系统一自动化的操作反映出这个演化的历史。然而,到现在还没有任何一个实验能够发现这么快辨识出好消息的其他管道。当然,我们和我们的动物远亲对有机会交配或进食的信号,也是马上就警觉起来,广告主才会设计许多广告牌。然而,威胁还是比交配或进食的机会有特权,在演化上,是不得不如此。
大脑甚至对符号上的威胁都反应得很快。充满情绪的字会马上吸引我们的注意力,不好的字眼(如战争、犯罪)比好的字眼(如和平、爱)更快吸引注意力。即使没有真正的威胁,只是提醒我们这是坏的事就足以使系统一警觉起来,立刻把它当威胁处理了。就如同我们在前面看到「呕吐」这个字,这个符号的表征激发了很多跟真正呕吐有关的联结,包括生理所引发的情绪反应,甚至有一点想去逃避这个字的倾向。对威胁的敏感会延伸到我们强烈反对的事情上,例如,依你对安乐死的看法,你的大脑在看到这个字的1/4秒内就马上把「威胁」这个字注册到你脑海中了,而你所读的是再普通不过的句子:「我认为安乐死是一个可接受/不可接受的……。」
心理学家罗辛 (Paul Rozin) 是一位对厌恶很有研究的专家,他观察到一只蟑螂会毁掉一碗樱桃,但是一颗樱桃却不会对一碗蟑螂起什么作用,他指出负向常常在很多地方赢过正向,损失规避只是在广大的负向领域中的沧海一粟罢了。好几位学者在一篇论文〈坏比好强〉(Bad is Stronger than Good) 中,总结了下面的证据:坏的情绪、坏的父母、坏的回馈比好的影响力大,坏消息处理得比好消息彻底,我们避开坏的自我定义的动机,比追求好的自我定义更强,坏的第一印象和坏的典型很快形成,很难改变。著名的婚姻关系专家葛特曼 (John Gottman) 发现,要维持一个长期的婚姻关系,不仅要追求幸福,更要避免负面的情况出现。他估计维持一个稳定的关系需要好的互动比坏的互动高5倍。在社会领域中,其他的不对称还更惊人,我们都知道一段好友谊要很多年的经营,却可以毁于一个行动。
有些好和坏的区辨是先天设定在我们的大脑中的。婴儿一出生就会认为痛是坏的事,对甜(到某个程度)认为是好的[2]。然而,好和坏的界线只是个参考点,会依时间而改变,而且依当下的情境决定。想像你在一个寒冷的晚上,衣服穿得单薄又碰上倾盆大雨,你的衣服湿透了,一阵冷风使你更加不舒服,当你跌跌撞撞地走路时,突然发现一块大石头可以帮你挡风遮雨。生物学家卡班纳 (Michel Cabanac) 把那一刹那的经验叫做强烈的快乐 (intensely pleasurable),因为它的功能就跟快乐平常带给你的功能一样。这个快乐不会维持很久,你很快又会在大石块后面发抖,你新的受苦又驱使你去找更好的遮蔽处。
目标就是参考点
损失规避跟两个动机的强度有关:我们规避损失的动机大于得到成就的动机。有时参考点就是现状,但是它也可以是未来的目标:没有达到目标就是损失,超越目标是赢得。就像我们会从负面主控中所预期的一样,这两个动机的强度是不同的。对未能达成目标的厌恶强过超越目标的渴望。
人们常常设定一个短期的目标,努力去达成,但却不一定去超越它。当他们达到最接近的目标后,便不再努力,开始减低付出,这会导致违反经济逻辑。例如纽约市的计程车司机心中有一个这个月或这一年要赚多少的目标,但是控制他们努力的目标却是每一天要赚多少。当然,每一天的目标是比较容易达成(而且超越)的。下雨天时生意最好,大家抢着叫车,司机很快就达到他的目标,天气好就不见得。经济的逻辑要纽约的计程车司机在下雨天多做一点,晴天、生意不好时,休息一下,用较低的价格去「买」他的休闲时间。损失规避的逻辑正好是相反:每天必须达成固定目标的司机,在生意不好时要多跑几个小时,而下大雨,乘客争先恐后要搭车时,赚到目标的金额就早早回家休息。
宾州大学的经济学家波普 (Devin Pope) 和史怀哲 (Maurice Schweitzer) 认为高尔夫球提供了参考点一个完美的例子:高尔夫球场的每一个洞都有一个参考点(即标准杆),平标准杆是打得好的最低标准(基线),但却不算是很出色的表现。对一个职业高尔夫球员来说,博蒂(比标准杆低一杆)就是赢,柏忌(bogey,比标准杆高一杆)就是输。经济学家比较一个球员在靠近洞时的两个情况:
- 避免柏忌的推杆。
- 推进就博蒂的推杆。
在高尔夫球中,每一次挥杆都要计入杆数,所以,在职业高尔夫球赛中,每一次挥杆都当作损失。根据展望理论,有些挥杆的损失比其他挥杆多。没有救平标准杆是损失,但是没有推进博蒂推杆是放弃「得」,而不是「失」。波普和史怀哲从损失规避来推理,球员在救平标准杆的那次挥杆,会更加努力(来避免损失),他们分析了250万次以上的推杆来测试这个预测。
他们是对的,不论那次推杆是容易还是难,距离洞口多远,当他们打平标准杆时都比博蒂时来得成功。他们在避免打出柏忌或打出博蒂的成功率差异是3.6%。这个差异在高尔夫球中不算小。老虎伍兹 (Tiger Woods) 也是他们研究中的一名「受试者」,在他表现得最好的那几年,他的博蒂推杆若能跟他救平标准杆的推杆一样好,他在巡回赛的平均杆数会进步一杆,而他的季收入会增加100万美元。这些激烈的竞争者当然不会在博蒂推杆时刻意放松,但是他们强烈的规避柏忌,显然是他们特别专注推杆的原因之一。
这个推杆的研究说明了理论概念的力量,它可以帮助思考。有谁会想到推杆值得花几个月去分析呢?损失规避的想法(对任何人都不是奇怪的事,除了一些经济学家之外),得出一个准确和非直觉的假设,并且将研究者引导至一个令所有人(包括职业高尔夫球选手在内)都惊异的发现。
防卫现况
假如你有心去找,避免损失的动机和得到收入的动机强烈地不对称,几乎到处都可以看到,它是协商中一定出现的现象,尤其重新协商一个已经存在的契约,最典型的就是劳资双方的协商、国际贸易,或军事限武。目前存在的条件界定了参考点,提出的任何改变都会被看成让步。损失规避制造出的不对称性,使协商难以达成共识。你对我的让步是我的得利,但却是你的损失,它使你感到的痛苦大于它给我带来的快乐。不可避免的,你会比我对它定的价格高。当然,你对我要求的让步也是同样情形,你不觉得它们值这么多钱,协商一块正在缩小的饼是特别的困难,因为它需要分配损失。假如是正在扩大的饼,在协商上就容易多了。
许多协商都是在讨论参考点,为对方提供一个「锚点」。这些讯息并不一定很真诚,协商者常假装对某样物品有很强的依附(如在协商减少武器军备竞争时提到的某一种飞弹),虽然这些飞弹可能只是被当作谈判筹码,最后会被交换出去。因为谈判者会受到互惠规范的影响,一个表现出很痛苦的让步就需要对方也做出很痛苦的让步(也许双方都是假装的)。
动物,包括人类在内,会很努力去阻止损失发生,所花的力气大于去赢得某样东西。在有领域 (territory) 的动物身上,这个原则解释了牠们为什么会不顾一切地反击侵入者。生物学家观察到,「当动物的领域被侵犯时,这只动物几乎一定会赢得这场竞赛,而且是在三秒内就解决入侵者[3]。」对人类来说,同样的原则解释了当一个机构想要改造它自己、一个组织要重整,或一个公司要整并,要减低健保开销,要减化赋税,要减少官僚作风时所面临的抵抗。起初我们认为,一个整体改善的改造计划一定会产生很多的赢家和一些输家。然而,假如被影响的人有任何政治影响力,这些可能的输家会比可能的赢家更频繁活动,更积极、更有决心地去阻挠改革的发生。最后结果可能偏向输家,也一定比原来计划的更贵、成效更差。改革通常必须保护既得利益者,不然反弹会很大,例如,减薪时不溯及既往,只降低未来新进人员的薪水[4]。对损失规避是个强有力的保守力量,你只能对现况做最小的改革。保守帮助我们维持婚姻和工作的稳定,它不动如山的引力使我们的生活维持在参考点附近。
法律上的损失规避
我们在温哥华工作的那一年,瑟勒、奈区和我都投入经济交易的公平性研究,一部分的原因是我们对这个主题感兴趣,但同时也是因为我们有机会(也是我们的义务)每个礼拜去制作新的问卷。加拿大政府渔业和海洋署有一个计划去聘失业的专业人员作电话访问,失业者每天晚上工作(因为受访者白天要上班),渔业和海洋署一直需要新的问题,使多伦多市这批失业者有工作可做。透过奈区,我们同意每个礼拜设计出一份问卷来。我们可以问任何事,唯一限制就是问卷中必须有一题跟鱼有关,以符合渔业署付钱的最低要求。我们这样工作了好几个月,疯狂地搜集资料。
我们研究大众对商人、雇主和房东不公平行为的看法。我们总体的问题是,对这些不公平行为的咒骂是否会让他们收敛对利益的追求。我们发现的确会。我们同时也发现大众评估这些公司是否有所收敛的道德规则,可明显区辨出得和失。基本的原则是目前的工资、价格和房租设定了参考点,给人一种这是我应得的权利的感觉,不能被侵犯。假如公司把它的损失转嫁到顾客或员工身上,会被认为不公平,除非这么做是为了保护它自己的应得权利,请看下面这个例子。
一个五金行本来卖一把雪铲15元,在暴风雨过后的第二天早晨,雪铲的价格提高到20元一把了。
请评定这个行为是:
完全公平 可以接受 不公平 非常不公平
这个五金行是依标准经济学模式在运作:它依需求定价格,现在暴风雪过后,很多人要铲雪,需求变高了,所以价钱提高。不过参加这个调查的受试者并不如此认为:有82%的人认为五金行这么做是不公平或非常不公平。他们显然把暴风雪前的价格当作一个参考点,把调涨的价格当作损失,五金行把这损失转嫁到顾客身上,不是因为它非做不可,而是因为它可以做(奇货可居)。我们发现基本的公平原则是认为,把损失转嫁到别人身上是不可接受的。请看下面用另一个情境来说明这个规则的例子(这些例子是我们在1984年搜集的,所以请用100%的通货膨胀率来调整价格)。
有个影印店的员工在该店做了六个月,每小时的工资是9美元,影印店的生意一直不错,但是附近有个工厂倒闭了,有许多人失业,其他小店开始用时薪7美元的工资来雇用员工做跟影印店相似的工作。影印店的老板现在把这个人的时薪降到7美元了。
有83%的人认为老板这样做是不公平或非常不公平。然而,只要稍微改一下问题就可以厘清老板的责任,同样是在高失业率地区仍赚钱的小店,所有场景都一样,只是:
目前这位职员离职了,老板决定以时薪7美元来雇用取代他职务的人。
这时,有73%的人认为这个行为是可以接受的。所以显然这个老板并没有道德义务去付时薪9美元的工资。我应该拿多少是个人的观念:目前这位员工有权利去维持他的工资,即使市场情况已经允许他的老板去减薪。替代他工作的新进人员没有权利去要求同前一任的参考薪水点,所以老板可以支付他较低的工资而不会被人骂不公平。
一个公司有权利去维持目前的获利。假如它面对损失的威胁,它是可以把损失转嫁到别人身上,绝大多数的受试者不认为它是不公平──即在公司营运不佳、收入减少时,它可以减少员工薪水(共体时艰),我们认为这是员工和公司互动时,双方的权利。当被威胁时,公司的自私不被认为是不公平,公司甚至不被预期要接受所有的损失,它可以转嫁一部分出去。
但是一个公司可以做什么以增加收入或避免盈余减少,规则又不一样了。当一个公司面对比较低的生产成本时,公平的原则并不要求公司把盈余与员工或顾客分享。当然,我们的受试者对于肯跟员工分享利益的公司评价比较高,但是对于不分享的公司并不会认为它不公平。他们只有在公司占便宜运用权力去中断与工人或顾客的非正式合约,然后把损失转嫁到别人身上来增加获利时,表示愤慨。这个经济公平的作业重点不在找出理想的行为,而是在找出可接受行为和不可接受行为之间的界线在哪里。
当我们把这份研究报告投到《美国经济评论》(American Economic Review) 时,并没有抱很大的希望,我们的文章挑战了当时很多经济学家所接受的教条,也就是说经济学是一个自我利益为中心的学问,公平与否不在他们考虑之内,一般认为公平 (fairness) 是不相干的。同时,我们的资料来自调查,而经济学家对调查是不怎么尊敬的,然而,这个期刊的编辑把这篇文章送去给两个不受传统教条约束的经济学家审核(我们后来知道他们是谁,他们是编辑所能找到最友善的两个评审教授),这个编辑的做法真是非常正确,这篇论文后来被引用了很多次,它的结论被证明经得起时代的考验。最近的研究支持了以参考点为判断公不公平的观察,同时也显示公平性在经济学中是重要的这个事实。关于这点,我们怀疑过但没有证据。违反公平原则的老板会被员工以怠工、减少产量的方式来报复,而不公平定价的商人则会流失客人。客人从新的产品目录上发现他过去买贵了,同样的产品现在变便宜了,而距离他上次购买并没有过很久的时间,他下次的订单就会减少约15%的购买量,每名顾客平均少买90元。顾客显然把新的低价当作参考点,觉得自己上次买贵了,是损失了。愈是在高价买很多的人,反应愈是激烈。这个损失远超过他们从新目录较低价所带来的业绩。
不公平所带给人们损失的感觉可能会有风险,假如受害者有能力报复的话。此外,实验显示,看到不公平行为的陌生人常加入惩罚的行列。神经经济学家(neuroeconomist,把大脑研究与经济学综合起来的科学家)用核磁共振仪 (MRI) 来检视人们在惩罚一个陌生人对另一个陌生人有不公平行为时的大脑的情形。很奇怪的是,为别人伸张正义的惩罚行为会增加大脑中快乐中心的活化。这显示维持社会秩序和公平的原则本身就是一个报酬。利他的惩罚(altruistic punishment,所谓的仗义执言),是把社会凝聚在一起的黏胶,不过我们的大脑并不是设计来慷慨回报有正义感的人,因为它的可靠度不像惩罚卑鄙的人那么可靠[5]。在这里,我们再一次看到得和失之间的不对称性。
对损失规避以及觉得自己权益被损害的影响,其实不只在金融交易的领域。陪审员可以马上看到它对法律和司法行政的影响,柯恩 (David Cohen) 和奈区找了许多的例子来说明在法律的判决上,实际的损失和放弃的收入之间的尖锐差异。例如,一个商人的货物在交易过程中损失了,他可能会得到实际成本的赔偿,但他不太可能得到预期获利的赔偿。「现实占有,败一胜九」(possession is nine-tenths of the law,指这个占有者在诉讼中总占上风)的原则,肯定的正是参考点的道德价值地位。在最近的一个讨论中,札米尔 (Eyal Zamir) 指出一个引起非常多人讨论的论点,就是赔偿实际损失与补偿放弃的获利之间的区分,可能可以用这两者对个人幸福感的差异来考虑法律的适当性。如果失去货物的商人所受到的痛苦远大于只是没有赚到钱的商人的话,前者可能应该得到法律更多的保障。
说到损失
「这个改革不会通过,这些受到损害的人会比得到利益的人抗争得更凶。」
「他们每一个人都认为对方的让步比较不痛苦,双方都错了,因为这是损失的不对称性。」
「假如他们了解这个饼变大了,他们会觉得重新协商契约比较容易,因为他们不是在分配损失,而是在分配所得,这应该比较容易达到共识。」
「这附近的房租最近上涨了,但是房客不认为我们应该涨他们的租金,他们觉得他们应该受到目前契约条件的保护。」
「我的客户不反对价格调高,因为他们知道我的成本变高了,他们接受我有权利应该要有利润。」
29 四象限型态
当你要对一个复杂的东西做整体评估时──如你想买的汽车、你的女婿,或一个不确定的情境──你会把重点放在它的特点上,并且加权。有些特质比别的特质更影响你的评估是个很笨拙的说法,不论你自己有没有感觉到,它自己就这样做了,这是系统一的作为。你对一辆车的整体评估可能权衡的是它的耗油量、舒适度,或外观。你对女婿的判断可能在他有没有钱、英不英俊,或可不可靠。同样的,你对一个不确定事情的评估,权衡的也是它的可能结果。这些加权是跟结果的机率相关:有50%的机会去赢100万就比1%的机会去赢100万更吸引人。这样分配权重有时是有意识、特意的,更多时候你只是个观察者,这些整体评估都是由系统一做的。
改变机率
决策制定研究喜欢用赌博的比喻是因为它提供了一个为预期结果加权的自然规则:结果的机率愈高,应该加的权重愈大。一个赌局的期望值是结果的平均数,每一个结果依机率加权。例如,20%的机会赢得1,000元和75%的机会赢得100元的期望值是275元。在白努利之前的时期,赌局是用它的期望值来评估。白努利保存了这个为结果加权的方法,叫做「预期原则」(expectation principle),把它应用到结果的心理价值上。在他的理论中,赌局的效用是它结果效用的平均值,每个结果都有机率的加权。
这个预期的原则并没有正确地描述出你对预期风险相关机率的看法。在下面四个例子中,你赢100万的机率增加了5%,这个消息对每一个例子都是一样好吗?
A.从0增加到5%。
B.从5%增加到10%。
C.从60%增加到65%。
D.从95%增加到100%。
预期原则说,你在每一个情况去赢100万的效用都增加5%。它有正确地描述出你的经验吗?当然没有。
每一个人都同意0→5%和95%→100%,比5%→10%或60%→65%更吸引人,从0→5%的机率改变转换了这个情境,创造了一个过去不存在的机率,一个可能赢得大奖的希望。它是一个质的改变,而5%→10%只是量的改进。5%到10%的改变使赢的机率变成了两倍,但是一般人都同意他心理的价值并不到两倍。0→5%的巨大影响说明了「可能性效应」(possibility effect),它对极不可能的结果加权比它应有的大了很多。那些买彩券的人就是愿意用超过期望值的钱去买赢得大奖的很小机率。
从95%增加到100%是另一个很大的质的改变,叫做「确定性效应」(certainty effect)。对那些几乎确定的结果,给予低于它的机率应得的权重。想像你继承了100万的遗产,但是你贪婪的继姐妹去法院争夺继承权。你明天会知道裁判的结果。你的律师跟你保证,你赢的机会有95%,但是他也提醒你,法院的判决是无法完全预测的。现在有个风险调整 (risk-adjustment) 公司来找你,他愿意付你91万来买你的案子,他提的金额比你的期望值(即95万)低了4万元。你确定你不要卖给他?假如这种事真的发生在你身上时,你要知道有种产业叫做「结构性和解」(structured settlement),他们就是运用确定性效应,提供很大的金额来保障你的确定性。
可能性和确定性在损失研究这个领域有相似的强烈效应。当你亲爱的人被推进手术房时,5%的截肢机率是非常糟的,绝对比10%风险的一半还糟。因为可能性效应,我们常会把小风险加权,我们愿意付比期望值多很多的钱去终止这个不确定性。95%会遇上灾难的风险与100%会遇上灾难之间的心理差异,比实际的大了很多。说不定还有救的最后一点希望的可能性会被放得很大。把很小的机率加权,增加了赌局和保单的吸引力。
这个结论是非常直接的:人们在做决定时,给予结果的加权与这个结果的机率是不同的,这与预期原则相反。不可能的结果常常被加权了,这是可能性效应。而几乎确定的结果都被低估了,这是相对于真实的确定性而言。预期原则是一个很糟的心理,因为它的价值是依机率来加权的。
然而,这个问题却愈来愈复杂了,因为有人认为想要做一个理性的决策者必须符合预期原则,这是冯纽曼和摩根史坦在1944年介绍效用理论的重点。他们证明凡是不能完全依照机率来分配不确定结果的加权,只会导致不一致性和其他灾难。他们从理性选择公理所导出的预期原则马上被学术界认为是重大的成就,它取代了预期效用理论成为经济学和其他社会科学理性代理人模式的核心。三十年以后,当特维斯基把他们的研究介绍给我时,他的态度是神圣畏惧的崇拜,他同时也介绍我对此理论一个著名的挑战。
亚列士矛盾
1952年,在冯纽曼和摩根史坦发表他们的理论后没几年,有一场在巴黎举办的会议就是在讨论风险经济学。当时所有最有名的经济学家都参加了这场会议,包括后来拿诺贝尔奖的山谬森 (Paul Samuelson)、艾罗 (Kenneth Arrow),佛里曼 (Milton Friedman),以及最有名的统计学家沙维吉 (Jimmie Savage)。
巴黎这场盛宴其中一位主办人是亚列士 (Maurice Allais),他后来拿到诺贝尔奖。他准备了几个有关选择的问题,要问这群杰出的学者。他想让这些与会者了解他们是多么容易被确定效应影响,而违反了预期效用理论和该理论所依据的理性选择公理。下面这组选择是简化过的亚列士矛盾。请问,在问题A和问题B中你会选哪一个选项?
A:有61%的机会去赢52万元,或63%的机会去赢50万元。
B:有98%的机会去赢52万元,或100%的机会去赢50万元。
假如你像大部分的人,你会喜欢问题A中左边的选项,以及问题B右边的选项。假如这是你的选择,你就犯了一个逻辑上的罪,违反了理性选择的原则。这些参加巴黎会议的著名经济学家,在亚列士矛盾也犯了同样的罪。
要了解为什么这些选择是有问题的,请想像从一个藏有100颗弹珠的瓦罐中,闭着眼睛摸1颗弹珠──假如你摸到红的弹珠就赢了;摸到白的就输了。我们把问题A和B想成从瓦罐中摸弹珠。在问题A中,几乎所有人都偏好左边的选择,虽然它的红弹珠比较少,但奖品大小的差异(2万元)比机率大小的差异 (2%) 更吸引人。在问题B中,绝大多数人会选确定的50万元,此外,人们对这两个选择都很满意──直到他们看出问题背后的逻辑。
比较这两个问题你会发现,问题B的两个瓦罐比问题A的两个有利。因为问题B的两个比较瓦罐,有37个白色弹珠被红色弹珠取代了。左边选项的改进很显然是比右边有利,因为每一颗红色弹珠都让你有机会赢左边的52万元,但是只能赢右边的50万元。所以一开始问题A时,你会选左边的瓦罐,这个选项在当时比右边的更吸引人。但是现在你喜欢问题B右边的瓦罐了,这个选择型态没有逻辑上的理由,但是有心理上的理由:确定效应发挥作用了。在问题B中100%和98%之间2%的差异,绝对大于问题A中63%和61%的差异。
就如亚列士预期的,这些学有专精的与会者并没有注意到他们的选择违反了效用理论,直到会议快结束时,亚列士才告诉他们。他原想让这个消息的宣布像投下震撼弹:这些世界上第一流的决策理论家居然选择了跟他们对理性看法不一致的选项!他显然认为他的观众会被说服去放弃他所看不起的美国学派 (American School),采纳他所发展出来的逻辑选项。结果他是大大失望了。
那些不是专攻决策理论的经济学家大多数忽略亚列士的问题。就像一个普遍被大家接受而且觉得很好用的理论被挑战时,他们会认为这个问题是个异类,然后继续使用预期效用理论,好像没有任何事发生似的。相反的,决策理论家──包括统计学家、经济学家、哲学家和心理学家──把亚列士的挑战看作重要的事。当特维斯基和我开始我们的研究时,我们一个主要的目标就是发展出一个令人满意的心理学理论来解释亚列士矛盾。
大部分的决策理论家(当然包含亚列士)维持他们对人类理性的信念,想去改变理性选择的规则来解释亚列士矛盾。这些年来,有好几个理论想为确定效应做这样的调整,但都没有成功。特维斯基对这种事很没有耐性,并把那些想把违反效用理论合理化的理论家叫做「误导的律师」。我们是往另外一个方向发展,我们保留效用理论作为理性选择的逻辑,但是放弃人们是完美的理性选择者的想法。我们承担起发展出一个可以描述人们做选择的心理学理论的责任,不管这个选择是不是理性的。在展望理论中,对决策的加权跟它们的机率是不同的。
决策加权
在我们发表展望理论之后很多年,特维斯基和我做了一个实验,我们测量了可以解释人们对偏好赌注保守赌局的决策加权。表4是我们的估计。
表4
你可以看到,决策加权和机率在两个极端是相同的。当结果是不可能时,决策加权和机率都是零。当结果是确定时,两个都是100。然而,决策的加权却急剧地与机率拉开距离。在低端,我们看到可能性效应:对不太可能的事件,持续性地过度加权。例如,对机率2%的决策加权是8.1,若符合理性选择公理的话,决策加权应该是2,所以稀少、不太可能的事件被加了4倍的权重。在机率量表右端的确定效应更惊人,在只有2%机率不会赢(即98%赢)的情况下,效用竟然减少13%(从100到87.1)。
要了解可能性效应和确定性效应的不对称,请想像你有1%的机会赢100万元,你明天会知道结果。现在再想像你几乎确定你会赢100万元,只有1%的机会不会赢,你一样明天才会知道结果。在第二种情况下的焦虑比第一种情况的希望大很多。结果若是外科手术失败而不是赢得金钱,确定效应也比可能性效应更为惊人,请比较这两种强度,一个是聚焦在1%的希望上(你知道这手术几乎确定会致命),另一个是担心1%的风险。
把机率量表两端的确定性效应和可能性效应综合起来时,不可避免地会对中间的机率产生不恰当的敏感度。你可以看到5%到95%之间的机率是跟更小范围(从13.2到79.3)的决策加权密切相关,只有理性预期的2/3。神经科学家确认了这个观察,他们发现大脑有区域会对赢奖机率的改变起反应。大脑对机率改变的反应跟对选项决策加权非常相似。
非常低或非常高的机率(低于1%或高于99%)是很特殊的例子,我们很难分派特殊的决策加权到一个很稀有的事件上,因为它们有时完全被忽略,被分派到的决策加权是零。从另一方面来说,当你不忽略非常稀有的事件时,你就几乎确定给了它太多加权,就像我们大多数人很少去担心核能厂熔毁,或去想像有个不知名的亲戚突然给我们留下很大一笔遗产。然而,当一件非常不可能的事变成我们注意力中心时,我们给它的加权远大于它的机率应该得到的权重。此外,人们几乎完全对小机率的各种风险变项不敏感。人们不容易区分出0.001%机率的癌症风险跟0.00001%的癌症风险有什么差别。虽然前者的意思是说美国人口中会有3千人得癌症,而后者是30个人。
当你把注意力放在威胁上时,你会觉得担心──而你对这个决策的加权反映出你的担心程度。因为可能性效应,担心程度会超越这个威胁应有的机率。这时减少或减轻风险是不够的,要去除这个忧虑,必须要将风险的机率降到零你才能安心。
下面这个问题是从一个1980年代的研究改写而来的,这是由经济学家所组成的团队研究消费者对健康风险的理性评估,对象是有小孩子的父母。
假设你现在用的除虫剂是10美元一瓶,但是每用1万瓶会引起15个孩子中毒,及15个人吸入性中毒。
你发现一个比较贵的牌子的杀虫剂可以减少上述两种风险,每用1万瓶中毒案例减少到5个,你愿意多花多少钱去买它?
父母亲愿意多花2.38元去减少2/3的风险(从1万瓶15个中毒减为1万瓶5个),并愿意多付8.09元(正好是2.38元的3倍)完全消除这个风险。其他的问题显示,父母把吸入性中毒和孩子中毒当作两个不同忧虑事项,并愿意付钱完全去除任一种中毒的风险。他们愿意付的钱跟心理的忧虑是相符的,但是与理性模式不合。
四象限型态
当特维斯基和我开始研究展望理论时,我们很快就达成两个结论:人们把价值依附到得和失上,而不是到财富上,所以他们给结果的加权与结果发生的机率不同。这两个想法都不是完全新的,但把它们综合起来可以解释一个独特的偏好行为型态,就是我们称之为「四象限型态」(fourfold pattern)。请看下面:
图13
- 每个象限中的第一行代表机率
- 第二行代表机率所带来的情绪
- 第三行表示大多数人在一个赌局和确定的得(或失)之间做选择时,大多数人的行为是呼应到期望值的(例如,有95%的机会去赢1万元和确定拿9500元之间做选择)。假如喜欢确定的选择就是风险规避;选择赌局,就是寻求风险。
- 第四行描述原告与被告在讨论民事诉讼庭外和解时预期的态度。
四象限型态的偏好被认为是展望理论的核心成就。四个象限中有三个是读者熟悉的,第四个(右上角)是新的、没有预期到的。
- 左上角是白努利讨论过的:当人们认为有很大的机会获得一大笔收益时,会风险规避。他们愿意接受比期望值低的条件,去确保一定能拿到的收益。
- 左下角的可能性效应解释了为什么大家会去买彩券。当头奖奖金很大时,买彩券的人对中奖机率很低这个事实漠不关心。彩券是可能性效应最好的例子。没有这张彩券你不可能赢,有了这张彩券,你便拥有了机会,你不在意这机会有多小。当然,当人们买彩券不只是得到一个赢的机会,还包括了作中大奖的白日梦权利。
- 右下角是说明了何时该买保险。人们愿意付比期望值高很多的钱去买保险──这就是为什么保险公司会赚钱。在这里,我们再一次看到人们会去付更多的钱,避免不太可能发生的灾难所带来的损害。他们要去除担忧,买一个心境的安宁。
右上角的结果一开始时令我们惊讶,除了左下角民众喜欢买彩券,我们习惯从风险规避的角度去想事情。当我们看到在不好的选项中做选择时,我们马上了解,我们在损失的领域中去寻求风险,就跟我们在赢得的领域中去规避风险一样。我们并不是第一个在负向的展望中观察到寻求风险的人,至少已经有两位作者提过这个事实了,但是他们并未深入去讨论它。我们很幸运有个理论架构,使我们很容易去解释寻求风险的现象,这在我们思考的研究上,是个里程碑。的确,我们找到两个理由来解释这个效应。
第一,敏感度的递减。确定损失是每个人都厌恶的,因为失去900元的反应比90%的机率失去1000元更强烈。第二个因素:有90%机率的决策加权是71,决策加权比机率低了很多。结果就是,当你考虑一个确定的损失和一场有高机率输的赌局时,递减敏感度使你更厌恶确定的损失,而确定性效应减少了赌博的厌恶性。当结果是正向的时候,这两个因素加强了确定事物的吸引力,减低了赌局的吸引力。
价值函数的形状和决策加权两者都与表13第一行的型态有关,然而在下面那行,这两个因素的作用是背道而驰的:递减敏感度持续使你厌恶「得」的风险,寻求失的风险。但是,对低机率的过度加权盖过了这个效应,产生了我们前面看到的「得」的赌博行为和「失」的谨慎行为。
右上角是很多人类不幸的情境,这是当人们面对非常不好的选项时,只好绝望地去赌一下,接受会使事情更糟的高机率,以交换一个能减少大的损失的微小希望。这种冒险通常使本来可以处理的失败变成不可处理的灾难。对很多人来说,接受一笔大的确定损失是太痛苦的事,若有可能免除这个痛苦的渺茫希望会使人失去理智,无法做出理性的决定就是认输、认赔、止血。很多企业的产品在被高科技取代时,认不清这一点,仍然继续投下资产,想要力挽狂澜。因为失败很难以接受,输家常在胜负已定了之后,仍做困兽之斗,不肯面对。
法律阴影的赌局
法学家嘉瑟瑞 (Chris Guthrie) 举出四象限型态应用在民事诉讼中,原告和被告考虑庭外和解的两个情境,这两种情境依原告案子的强度而有不同。
就像我们在前面看到的情境一样,你是民事诉讼中的原告,你要求一大笔损失赔偿。案子进行得很顺利,律师告诉你,你有95%的机会会赢,但是警告你,「你永远不知道结果会是怎样,直到判决宣布。」律师鼓励你接受庭外和解,以确定拿到90%的赔偿金。你现在就处于四象限型态的左上角,你脑中冒出:「我是否愿意去冒一个什么都得不到的险?即使90%的赔偿金是很多的钱,我现在就可以马上拿到,不必担心法庭的判决结果。」你的两种情绪被引发起来,并朝同一方向驱使着你做决定:一是对确定的得(而且金额不小)的吸引力;另一是对强烈失望和悔恨的恐惧,万一你拒绝了和解又输了这场官司怎么办?你可以感受到这种情境中伴随着谨慎行为而来的压力。有很高胜算的原告通常选择风险规避。
现在请站在被告的角度想一想。虽然你并没有完全放弃赢的希望,你了解这次的审判对你不利,原告律师提出付90%赔偿金的和解条件,很显然这是他们的底线,他们不会接受比这更少的赔偿金,你愿意和解吗?还是官司打到底?因为你面对的是一个高机率的损失,你的情况是右上角的情境,官司打到底的诱惑力很强:原告提出的和解金额几乎就跟打输官司所需赔的金额一样,而你心中仍存有一点点官司可能翻盘的希望。这里也有两种情绪,确定的损失令人厌恶,而在法庭中赢的可能性极具吸引力。一个胜算不高的被告是很可能去冒险赌一下,而不会接受对他不利的和解。一个风险规避的原告和一个寻求风险的被告在摊牌时,从双方律师讨价还价的过程中可以看出来,被告是比较有利的,原告最后从和解并得到的赔偿金都比统计上预期的法院判决结果低。四象限型态对此的预测得到法学院学生和执业法官所做的实验上支持,也得到民事和解的实际协商资料的支持[1]。
现在考虑一下「滥诉」(frivolous litigation,即没有赢面,没有价值的诉讼,又叫懒人的彩券)的情况。当一个原告没有什么法律证据去告一笔很大的求偿金时,双方都知道彼此输赢的机率,也都知道在协调和解上,原告只能拿到求偿金的一小部分,这个协商就处于四象限型态下面那一行,原告在左边,只有很小的机会去赢一大笔钱。滥诉是赢得大奖的彩券,对一点点很小的机率过度加权在这种情况是很自然的事,使原告在协商时,大胆且咄咄逼人。对被告来说,这种诉讼是无聊的无妄之灾,输的风险很低,对大损失的小机率过度加权的结果,使得被告风险规避,进而愿意花钱去买保险,不必担心万一有坏结果发生。现在,鞋子换到另一只脚了:原告很愿意去赌,而被告想要安全,滥诉的原告很可能得到厚厚一大笔和解金,比统计上认为他应该得到的大得多。
这个四象限型态所描述的决策过程并没有明显不合理,你可以从原告和被告的感觉去看到,在每一个案子中他们为什么会采取战斗或妥协的态度。不过,从长远看来,期望值的偏差代价其实是很大的。就以纽约市为例,假设每年要面对200件这种滥诉,每一件有5%的机率使纽约市政府花上100万美元,再假设政府和解的金额是10万美元,政府有两条路可走:和解或上法庭(为了简单起见,我先省略打官司的费用)。
- 假如这200个案子中,市政府会输掉10件,总损失是1千万美元。
- 假如市政府庭外和解,每一个案子是10万美元,总花费是2千万美元。
当你长远来看这种决策,你就会看出支付一笔额外费用来避免很大金额的很小风险其实是很贵的。同样的分析可以应用到四象限型态的每一个象限中:从长期来说,来自期望值的系统化偏差,代价都很高──这个规则对风险规避和风险寻求都适用。一致性地把不太可能的结果加权──这是直觉判断的特质──最后导致很差的结果。
说到四象限型态
「他很想和这个滥诉和解,以避免反常的损失,不管这机率有多不可能,这是把很小的机率过度加权了。既然他有可能碰到很多类似的问题,他最好是不要退让。」
「我们从来不让度假计划悬在最后一分钟才能拍板的交易上。我们宁可多付一些钱来买确定的行程。」
「只要有一点机会打平,他们就不会停损,这是在损失情况下寻求风险。」
「他们明知瓦斯爆炸的风险很低,但还是希望去除这个担心,这是可能性效应,他们要的是安心。」
30 罕见事件
在巴士遭自杀炸弹袭击相当普遍的那段期间,我造访了以色列很多次,如果以绝对机率来说,这样的袭击事件当然是很罕见的,在2001年12月到2004年9月,一共有23起这种自杀炸弹袭击事件发生,造成236人死亡。在那段期间,以色列境内每天搭乘巴士的人数大约是130万人。对任何人来说,遭袭击风险是很低的,但老百姓却不是这样想。人们尽量避免坐巴士,而坐在车上的人则焦虑地环顾其他乘客是否带什么奇怪的包包或穿着宽松的衣服,怀疑里面会不会藏着炸弹。
我并没有很多机会去搭巴士,因为我租了一部车代步,但我很懊恼地发现我的行为也受到影响。我发现我不喜欢在红灯时,停在巴士旁,绿灯一亮,我比平常更快地驶离。我对自己的行为感到很羞耻,因为我知道这风险是小到不能再小,真的可以被忽略的,我的行为完全是来自我对一个极小的机率赋予了不寻常的高「决策加权」。事实上,我开车受伤的机率远大于停在巴士旁。但是我避开巴士并非来自理性的生存考量,我会有这种行为完全是当下的经验:停在巴士旁边使我想到炸弹,而炸弹这个念头令我不愉快,我避开巴士是因为我想要思考别的事。
我的经验说明了恐怖主义为什么这么有效。它引发出一个可用性级联效应,媒体一再重播死亡的影像和倾毁的房屋,人们不断地谈论它,这些都使你的念头马上被激发,尤其你正好停在巴士旁边的时候。这情绪的激发是联结性的、自动的、不可控制的,它制造出保护行动的冲动。系统二可能「知道」这机率是很低的,但是这个知识并没有去除自我产生的不舒适感觉,以及让人想要避免这种感觉。系统一是无法被关掉的,恐惧的情绪不但和机率不符,也对正确的机率太不敏感。假设有两个城市都被警告有自杀炸弹客的存在,有一个城市的居民是被告知有两个炸弹客,已经准备好了要去攻击,另外一个城市的居民是被告知有一个炸弹客,他们的风险降低了一半,但是他们有觉得比较安全吗?
纽约市有很多卖彩券的店,生意很好。中特大奖的彩券心理就跟对恐怖主义抱持的心理一样。能中大奖的可能性使人兴奋,整个社区也跟着兴奋,而且在工作场合或家里聊到此事时,兴奋情绪又更加强化。买一张彩券你就立刻可以去做快乐的中奖大梦,就像避开了巴士,你就立刻得到恐惧解放。在这两个情况中,跟真正的机率是没有关系的,只跟可能性有关。展望理论最初的构想包括「很不可能发生的事件不是被忽略,就是被过度加权了」这个概念。但是它并没有说明在什么情况下,会被忽略或过度加权,也没有提出一个心理学上的解释方法。我对决策加权的看法受到最近情绪在决策制定上所扮演角色的强烈影响。对一个很不可能发生事件的过度加权是根植于系统一的特质中,现在大家对它应该已经不陌生了。情绪和影像的鲜明性影响它被提取的流畅性,以及可用性和对它的判断的机率,这些就是我们对罕见事件过度反应的原因。
高估和过度加权
你认为美国下一届总统会是第三党候选人的机率有多大?
假如美国下一届总统是来自第三党的话,你可赢得1千元;如果不是,你什么都没有。你愿意付多少的赌注?
这两个问题不同,但显然是相关的。第一个问题请你估计一个很不可能事件的机率。第二个问题是请你对同一个问题做一个决策的加权,请你下注。
人们怎么做判断?又怎么做决策加权?我们从两个简单的答案开始,看它们的资格。下面就是两个过度简化的答案。
- 人们过度高估不可能事件的可能性。
- 人们在做决定时对不可能事件过度加权。虽然高估和过度加权是两个不同的现象,它们有着相同的心理机制:聚焦的注意力、确认偏见和认知放松。
特定的描述激发了系统一的联结机制,当你想到第三党候选人不可能的胜利时,你的联结系统就以它一贯的肯定模式在运作,选择性地提取出证据、例子,和影像来支持这句话。这个历程是有偏见的,但是它不是幻想。你可以找到一些可能的情景来确定符合真实的规范是有可能的,你并没有只是想像西方仙女把第三党候选人放在总统的宝座上,你对机率的判断是由认知放松和流畅性来决定的,貌似正确的场景因此来到你的心中。
你并不是总是聚焦在你要去估计机率的案子上,假如这个目标事件是个很可能的事件,你会聚焦在它的另一个可能性上,请看下面的例子:
在你社区医院中,婴儿生下来三天就可出院的机率有多高?
你被要求去估计一个婴儿三天内出院回家的机率,但是你几乎是确定聚焦在那些使婴儿无法在正常期间出院的事情上。我们的心智有足够的空间和能量去同时注意额外加进来的不寻常事物。你很快就了解,在美国,婴儿出生后,两到三天内可以出院回家(不是所有国家都有这个标准),所以你的注意力转到不正常的情况,这个很不可能的事件现在变成你注意力的焦点。可用性捷径很可能被激发起来:你的判断很可能决定于你能想起多少个医疗问题上的场景,以及这些场景有多容易来到你的心中。因为你在一个肯定的模式中,所以你的估计很可能偏高。
当另一个可能性没有被标示得很清楚时,罕见事件的机率极可能被高估。我最喜欢的例子来自心理学家福克斯 (Craig Fox) 的研究。当他还是特维斯基的学生时,做了一个研究,他找了职业篮球队的粉丝请他们对NBA季后赛冠军做一些判断和决定,他特别请他们轮流对打进季后赛的八队做估计,判断的重点是谁最后赢了。
你一定可以猜出这是怎么一回事,但是福克斯观察到的效应强大会使你吃惊。请想像一个粉丝被要求去估计芝加哥公牛队会赢的机率。这焦点事件被清楚界定,但是它的每一个可能性──其他七队中的一队赢得冠军──是很难而且比较不是这么容易得出的。这个球迷的记忆和想像力是在肯定的模式下操作的,所以他试着去建构出公牛队胜利的场景。当这个球迷下一次被问到湖人队赢的机率时,同样的选择性活化又来为湖人队服务。这八个美国最强的职业篮球队都非常强,你没有办法去想像哪一队会输,所以最后的机率加起来是240%,当然这是很可笑的,因为这八队机率的总和一定要是100%。但是当这位球迷被问到冠军队伍是来自东区联盟或西区联盟时,这个可笑的情形就消失了。这个焦点事件和它的可能性是同样清楚地在问题中标示出来,它们判断的机率加起来是100%。
为了要知道决策的加权,福克斯请这些球迷去赌最后的冠军是谁。他给每一个赌注一个现金价值,使下注更吸引人。赢的人可以拿到160美元。这八队的现金价值总和为287元,一个人如果八个赌注都输了,会输掉127元。参加者当然都知道角逐冠军的有八队,平均赢的钱不可能超过160元,但是他们还是过度加权了。他们不但高估了他们心仪的队伍的机率,还非常愿意去对他们下赌注。
这些发现为计划的谬误和其他的乐观现象带来了新的看法。当我们想去预测一个专案的结果时,成功的执行这个计划是特定的,很容易想像的。相反的,失败的原因就很多了,因为出错的方式有很多种。创业家和投资人在评估一项投资时,常会高估机率和过度加权他们的估计。
鲜明的结果
我们前面看到,展望理论和效用理论的差异在于机率和决策加权的关系上。在效用理论中,机率和决策加权是相同的。对确定的事情决定的加权是100,而90%机会的加权就是90,它是10%机率决策加权的九倍。在展望理论,机率的变异性对决策加权的效应比较小,我前面提到的一个实验发现对90%机率的决策加权是71.2,而10%机率的决策加权是18.6,两个机率的比例是9.0,而决策加权的比例只有3.83。这表示在10%到90%的范围中人们对机率的敏感度不足。在两个理论中,决策加权都依赖机率而不是结果。两个理论都预测,90%机率的决策加权和去赢100元、收到一打玫瑰,或受到电击是相同的,这个理论的预测后来发现是错的。
芝加哥大学的心理学家发表了一篇有着动人标题的论文──〈钱、吻,和电击:风险的情意心理学〉(Money, Kisses, and Electric Shocks:On the Affective Psychology of Risk)。他们发现当赌局的结果是情绪上的(和你最喜欢的电影明星见面和亲吻,或接受一个会痛但不危害生命的电击)会比赌局结果是得或失在机率的评估上更不敏感。这并不是单一的发现,其他研究者用生理上的测量(如心跳),也发现对电击的恐惧跟被电击的机率没有相关。只要有被电击的可能就会激发全套的恐惧反应。芝加哥团队提出「充满情绪的影像」淹没了对机率的反应。十年以后,普林斯顿大学的心理学家挑战了这个结论。
普林斯顿的团队观察到,人们对情绪结果出现机率的低敏感度是很正常的。对金钱的赌博是个例外。对机率的敏感度高是因为他们有确定的期望值。
多少金额的现金才会和下列赌局一样吸引人?
A.84%的机会去赢59元。
B.84%的机会收到插在玻璃花瓶中的一打红玫瑰。
你注意到什么?这个鲜明的差异在问题A比问题B容易多了。你不需要停下来计算这个赌注的期望值,但是你可能马上知道这个期望值跟50元相距不远(事实上是49.56元),这个模糊的估计就提供了足够的锚点去帮助你寻找同样有吸引力的现金礼物。但是在问题B中,你没有这个锚点,所以比较难回答。去评估现金等值赌局的受试者有21%的机会去赢得这两个结果。如我们预期的,高机率和低机率赌局之间的差异在现金中比在玫瑰中显著得多。
为了要强调他们认为对机率的不敏感度不是由于情绪的关系,普林斯顿的研究团队比较了人们付钱去避免赌局的意愿:
有21%机会(或84%机会)花一个周末去油漆某人三间卧房的公寓。
有21%机会(或84%机会)去清洗「用了一个周末后的三间宿舍厕所」。
第二个结果绝对比第一个更能引发情绪,但是这两个结果的决策加权并没有改变,因此,情绪的强烈度并不是答案。
另一个实验得到一个令人惊讶的结果。受试者得到一个清晰的价格讯息以及这个奖品的文字描述,例如:
有84%机会去赢:玻璃花瓶中的一打红玫瑰,价值59元。
有21%机会去赢:玻璃花瓶中的一打红玫瑰,价值59元。
这些赌局中,你很容易去得到预期的金钱价值,但是增加了特定的金钱价值并没有改变结果:即使在这情况下,评估并没有改变,人们对机率还是不敏感,那些把礼物当作得到红玫瑰机率的人,并没有用价格的资讯来作锚点去评估这个赌局。就像科学家有时说的,这令人惊喜的发现试图告诉我们某些事,那么,这个故事是要告诉我们什么?
我认为这故事要告诉我们的是,丰富和生动的结局表征,不论它会不会引发情绪,减低了机率在评估一个不确定性展望中所扮演的角色。这个假设有一个预测,我有相当高的自信这预测会成功:增加不相干但是细节生动的资讯,会干扰人们对金钱的结局计算。请比较下面结局的现金等值:
在下周一有21%(或84%)机会得到59元。
在下星期一早晨有21%(或84%)机率赢得装有59元的蓝色大信封。
这个新的假设是,受试者对第二个例子的机率会比较不敏感,因为蓝色大信封会激起生动、流畅的表征到心中,当你建构这个事件时,你心中有个生动的结局影像,虽然你知道这个机率是很低,但是认知放松也对确定性效应作了贡献。当你心中对这个事件有个清晰生动的影像时,这个事件不发生的机率也清晰地表现出来,而且被过度加权,强化的可能性效应和强化的确定性效应两者相加,就没有多少空间让决策加权去改变21%机率和84%机率之间的差异了。
生动的机率
流畅的、生动的,和容易出现的影像会影响决策加权,这已得到很多其他观察的支持。在一个很有名的实验中,受试者可以从两个罐子中选一个罐子,摸一颗弹珠出来,如果是红色的,他就赢了。
A罐中有10颗弹珠,其中1颗是红的。
B罐中有100颗弹珠,8个是红的。
你会选哪一个?在A罐中,赢的机率是10%,B罐中是8%,所以这个选择很容易,但是不对:有30%~40%的学生选了红色弹珠比较多的B罐,而不是赢得红色弹珠机率比较高的A罐。艾普斯坦 (Seymour Epstein) 认为这个结果说明了系统一表面处理的特质(他把系统一叫做经验的系统 experiential system)。
你可能会预期,人们在这个情况下,所做的愚蠢选择会引起很多研究者的注意。这个偏见有很多的名字,我跟着史洛维克也叫它为「分母的忽略」(denominator neglect)。假如你的注意力是聚焦在能使你赢的弹珠上,你就不会去管不能让你赢的弹珠,至少不会给予它们同样的注意力。生动的影像导致分母的忽略,至少我的经验是如此。当我想到小罐时,我看到1颗红的弹珠在一堆白色弹珠中,而当我想到大的罐子时,我看到8颗红弹珠在一堆白色弹珠中,这给我一个比较有希望的感觉。这个特别生动、显著的红弹珠增加了决策的加权,强化了可能性效应。当然,对确定性效应来说也是这样。同样是有90%的机会去赢一个奖,那么100颗弹珠中有10颗是让你「输」的弹珠,会比10颗中只有1颗是让你输的弹珠,更加凸显输的可能性,虽然它们的结果都是一样。
这个分母的忽略帮忙解释了为什么不同的风险沟通方式在效应上会有这么大的差异。你读到「一个保护孩子不会得到致命疾病的疫苗有0.001%的机会造成永久性伤害。」这个风险看起来很小。但是假如把它写成「十万个接种疫苗的孩子中,有一个会得到永久性的伤害。」你心中立刻浮现一个残障孩子的影像,999,999个安全接种的孩子就退到背景里去了。就如分母的忽略所预测的,低机率的事件在用相关频率来描述(例如有多少)时,会得到比较重的加权,这是与抽象的「机率」、「风险」、「有多可能」名词相比较时的情况。我们在前面曾看到,系统一比较会处理个人的讯息而比较不会处理类别的讯息。
频率的效应很大,在一个研究中,一部分受试者读到「每一万人口中,有1,286人因某个疾病而死亡」会比读到「某个疾病会使24.14%的人口死亡」更觉得这个疾病危险,第一个疾病比第二个疾病看起来更有威胁性,虽然第一个的风险只有第二个疾病的一半。在一个更为直接的分母的忽略例子中,「每一万人中,有1,286人死亡」,被判断为比「每一百人中,有24.4人死亡」更为危险。如果受试者直接去比较公式,就可以减少或去除这个效应,因为比较公式是系统二的工作。然而生命通常是一个受试者间的实验,你一次只能看到一个公式。必须要有特别活跃的系统二,才能找出你所看到的那个公式的其他可能性,进而发现它可以有不同的反应。
有经验的犯罪心理学家和精神科医生也不能免于这个因风险表达方式不同所造成的不同效应。在一个实验中,专家们评估是否可以把一个精神病院的病人琼斯先生放出来,这个人有暴力伤害的历史。他们所接受到的讯息包括一个专家对风险的评估,同样的统计数字是用下面两种不同的方式描述的:
与琼斯先生相似的病人被估计有10%的机率在出院后的头几个月会做出攻击的暴力行为。
每100名跟琼斯先生类似的病人中,有10名被估计在出院后的头几个月会做出攻击性的暴力行为。
结果看到频率呈现方式的专家驳回病人的申请几乎是看到机率呈现的两倍(41%对机率呈现的21%)。描述得愈生动,会对同样的机率赋予更高的加权。
不同呈现事实的方式,创造了一个操弄的机会。那些手上有斧头知道怎么去磨的人懂得如何去利用它,史洛维克和他的同事引用了一篇文章,里面说:「全国一年中大约有一千件谋杀案是因为有严重精神疾病的人没有吃药所犯下的。」用另一个方式来表达同样的事实:273,000,000名美国人士中,有1000名,每年会死于这个方式;另一个方式是「每年被这种人谋杀的机率是0.00036%」;还有另一个方式是,「每年,有一千名美国人会死于这个方式,比死于自杀人数的三十分之一还少,大约是死于喉癌人数的四分之一。」史洛维克指出,「这些拥护者非常公开地表示他们的动机:他们要让老百姓害怕,使他们恐惧精神病患者的暴力,他们希望老百姓的这个恐惧会使政府分配精神健康的钱多一些。」
一个好的律师,希望让陪审员对DNA的证据产生怀疑时,他不会告诉陪审员,「比对错误的机率是0.1%」,他这样说,「一千个案子中,有一次比对错误」,这个方式比较容易使陪审员跨过合理怀疑的门槛。听到这句话的陪审员会在脑海中出现一个影像,一个人坐在法庭上,他因为DNA检验出了错被误判了。检察官当然会赞成比较抽象的框架,他希望陪审员的心中充满了小数点。
从整体印象得出的决定
证据显示,聚焦的注意力和鲜明性会导致高估不可能事件发生的机率,并过度加权不可能的结果。鲜明性是只要提到这个事件就会被强化,因为它被描述的方式很生动。当然,一定有例外;也就是说,聚焦在一个事件上,也不见得一定会增加它的机率:如一个错误的理论使一个事件看起来是不可能的事,即使当你去想的时候,或是你根本无法去想像这个结果可能会是什么样时,你会认为这种事绝对不可能发生。对一个鲜明事件高估和过度加权的偏见并不是一个绝对的规则,但是它的效力很大很强壮,随处可见。
近几年来,学者对于「从经验中来的选择」(choice from experience) 很感兴趣,这与展望理论中所分析的「从描述中来的选择」(choice from description) 有着不同的规则。在一个典型的实验中,受试者面前有两个按钮,当按钮时,每一个钮会产生金钱的回报,或是什么都没有。这结果是依照设定的机率随机安排的(例如:5%赢12元,或95%机会赢1元)。这个历程是完全随机的,所以不能保证一个受试者所看到的样本可以完全代表统计的设定。跟这两个按钮所联结的期望值大致上是一样,但是一个比另一个的风险大一点(即一个钮在5%的尝试中可能产生10元,而另一个钮则是50%的尝试中产生1元)。这设计是让受试者做很多的尝试,从中让他自己观察到按一个钮和按另一个钮的不同,而得出「从经验中来的选择」。从「描述中来的选择」则是给受试者看每一个按钮所联结的机率(如5%的机率赢12元),请他去选择要按哪一个。如同展望理论的预期,「从描述中来的选择」得到的是可能性效应 (possibility effect),把罕见的结果过度加权,这是就它发生的机率来说,加权过度了。相反的,过度加权却从来没有在「从经验中来的选择」上观察到,这是很显著的差异,很明显的对比,在「从经验中来的选择」普遍看到的是加权不足。
「从经验中来的选择」的实验情境是要去代表许多情境,我们会接触到来源相同、结果却不同的许多情境。一个普通的餐厅偶尔会烧出特别好或特别糟的菜来。你的朋友通常是好的伴侣,但是他有的时候也会心情不好,讲话刻薄。加州容易有地震,但是很少发生。很多实验的结果显示,当我们在做选择餐厅或把热水炉固定住以减少地震损失的这些决定时,并不会对罕见事件过度加权。
如何解释「从经验中来的选择」还没有完全定案,但是大家对罕见事件在实验中及在真实世界里的加权不足的主要原因已有共识:许多受试者根本没有经验到罕见事件!大部分的加州人从来没有经验过大地震,在2007年,没有任何一个银行家有过巨大金融危机的个人经验[1]。赫威格 (Ralph Hertwig) 和艾瑞夫 (Ido Erev) 注意到「罕见事件的机率(如房地产泡沫化)比它们根据客观机率所应产生的影响还小。」他们用大众对长期环境威胁不愠不火的反应做例子。
这些忽略的例子很重要也很容易解释,但是当人们有实际去经验罕见事件时,加权不足仍然会发生。假设你有一个复杂的问题,跟你同一层楼的两位同事可能可以帮你解答。你认识他们很久了,而且有很多的机会去观察并经验他们的人格。阿德列 (Adele) 一般来说是一直很愿意帮助人,虽然不是特别愿意帮助人。布莱恩 (Brian) 不像阿德列那么友善,那么愿意帮助人,但是在有些场合,他是非常慷慨地贡献他的时间与忠告。你会去找谁来帮助你?
请看这个决策的两个可能的观点:
- 这是两个赌局的选择。选阿德列比较可能有好的结果,选布莱恩比较可能有稍差的结果,但是有低的机率结果会非常好。这罕见事件会被可能性效应过度加权,你会选布莱恩。
- 这是你对阿德列和布莱恩两个人整体观感的选择。你所有好的和坏的经验是被综合在你对他们正常行为的表征中。除非这罕见事件是非常的极端,使它个别进入你的心中(布莱恩有一次辱骂一位请他帮忙的同事),常模会偏向典型和最近发生的事件。你会选阿德列。
在两个系统的心智中,第二个解释是看起来可能得多。系统一产生阿德列和布莱恩整体性的表征,这包括情绪的态度和趋向或回避的倾向。除了比较这些倾向之外,你不需要别的因素去决定你想敲的门。除非罕见事件特别清晰地来到你的心中,它不会被过度加权。把这同样的想法应用到「从经验中来的选择」上,也是很直接的。当时间过去,他们观察到结果被呈现出来,这两个按钮发展出综合的人格,情绪的反应就附在这个反应上。
对罕见事件被忽略或被加权的情境的了解,现在比当时展望理论刚提出来时,好得多了。罕见事件的机率常会(但不一定会)被高估,因为我们的记忆有确认偏见。当你在想这个事件时,你在心中会想把它变成真的,假如它特别吸引注意力,这个罕见事件就会被高估。当好处被很特定的描述出来(99%机会赢1千元,1%的机会什么都没有),不同的注意力会有效地分派到不同的事件上。执着性的关心(耶路撒冷的巴士)、生动的影像(玫瑰)、具体的表征(一千里面的一个)、没明确的提醒(如「从描述中来的选择」)这些都会导致过度加权。当没有加权时,它就被忽略了。对罕见机率来说,我们的心智不是设计去把事情做对的。对居住在一个可能遇见罕见事件星球上的居民来说,这不是个好消息,我们不知如何去处理它。
说到罕见事件
「海啸即使在日本也是很罕见的,但是它的影像是这么的生动和引人瞩目,游客一定会高估它的发生机率。」
「这是很熟悉的灾难循环,它从夸大和过度加权开始,然后人们就忽略这件事了。」
「我们不应该聚焦在单一的场景上,不然我们会高估了它的机率。让我们设立特定的其他可能性,使机率加起来是100%。」
「他们想要让老百姓担忧风险,这是为什么他们把它描述成每一千人中死亡一人,他们用的就是分母的忽略。」
31 风险政策
想像你面对下列两个并发的决策,先看一下这两个决定的选项,然后做出你的选择。
决定(1)请选择:
A.确定得到240元。
B.25%的机率赢1,000元,75%机率什么都没有。决定(2)请选择:
C.确定输750元。
D.75%机率输1,000元,25%机率什么都没有。
这两个选择问题在展望理论的历史中占很重要的位置。关于理性,它现在有新的事情要告诉我们。当你在看前面两个问题时,你一开始对确定的事情(A和C)的反应是喜欢A,厌恶C。你对「确定得到」和「确定输掉」的情绪反应是系统一的自动反应。这是在比较费力的计算期望值之前就发生了,这个期望值是赢得250元和输750元。大部分人的选择会和系统一的预测一样,绝大部分的人选择A和D。就像很多有中、高机率的选择中,人们在赢的领域里,规避风险,在输的领域里,寻求风险。在特维斯基和我所做的原始实验中,73%的受试者在决定(1)中选A,在决定(2)中选D,只有3%的人选择B和C。
你被要求先去看两个选项才去做你第一个选择,你很可能照着做了。但是有一件事你没有做──你没有去计算综合这四个选项的可能结果(A和C、A和D、B和C、B和D)来决定哪一个组合你最喜欢,你对这两个问题分开的偏好是直觉的,马上看得到的,而且你没有理由去预期它们可能会带来麻烦。此外,综合两个决策问题是很辛苦的事,你需要纸和笔来计算。你没有这样做。现在,请看下面的选择问题:
AD.25%机会赢240元,75%机会输760元。
BC.25%机会赢250元,75%机会输750元。
这个选择很容易,BC比AD好,BC选项「主控」(dominate 是个技术名词,它指一个选项是明确的优于另一个选项)AD选项。你已经知道下面是什么了。这个主控AD的BC选项是在第一对决定问题中被拒绝的两个选项组合,也是在原始的研究中,只有3%的受试者喜欢的。这个之前比较差的BC选项,在这次决策问题中,有73%的受试者喜欢。
广还是窄?
这一套选项可以告诉我们很多有关人类理性的局限性。它帮助我们看到人类偏好的逻辑一致性是个没有希望的海市蜃楼。请再看一下最后一个问题(那个容易的)。你会想像把这个显著的选择问题拆解成两个问题,使大部分的人去选择比较差的选项吗?这是真的:每一个简单的「得和失」的选择可以用很多方式分解成几个综合选项,得出不一致性的偏好。
这例子也告诉我们在「得」时规避风险,和在「失」时寻求风险的代价是很高的。这些态度使你愿意去付保险费以得到一个确定的「得」而不去面对一个赌局;同时也愿意去付保险费(期望值)去避免确定的损失。这两个付款来自同样的口袋,你同时面临两种问题时,矛盾的态度不可能带来最好的结果。
下面有两个方式来建构决策1和2:
- 窄框:分开来考虑两个简单的决定。
- 广框:一个有四个选项的综合决定。
广框显然优于窄框,的确,它在每一个需要沉思,一起考虑好几个决策的案子中都是较好的(至少不会劣于窄框)。想像你要同时考虑五个简单的决策,广框(全体性)是一个包含32个选项的选择。窄框有5个简单的选择,这5个选择的序列会是广框32个选项中的一个。它会是最好的吗?或许,但不太可能。一个理性的人当然会选择广框,但是人类的天性是窄框的。
理想的逻辑一致性,如这个例子所显示,是无法用我们有限的心智来达成的。因为我们很容易陷入WYSIATI,而且厌恶去做心智费力的事。当问题出现时,我们就会去做决定,虽然我们是特别被告知要整体去考量。我们既没有倾向,也没有心智资源去坚持我们偏好的一致性。我们的偏好并非如理性代理人模式所说的是合理的、一致性的、完整的。
山谬森的问题
20世纪伟大的经济学家山谬森 (Paul Samuelson) 有一次问他的朋友会不会接受一个丢铜板的赌局,输了赔100元或赢了拿200元。他的朋友回答说:「我不会去赌,因为我觉得输100元的感觉比赢200元来得强,但是我会应你的邀请来赌,假如你能答应让我丢一百次铜板。」除非你是决策理论家,你才会像山谬森的朋友有同样的直觉:玩一个高赌注高风险的赌局很多次,就会降低主观的风险。山谬森发现他朋友的回答很有意思,就去分析它。他证明在一些非常特定的情况下,拒绝单一赌局的人也应该拒绝很多次赌局,才会达到最大效用。
山谬森并没有在意他的证明导致一个违反了普通常识的结论:几百次的赌局是很吸引人的,没有任何一个心智正常的人会拒绝。罗宾和瑟勒指出,「玩一百次输赢机率各是50:50,输了赔100元,或赢了拿200元的赌注,预期收入有5,000元,只有1/2,300的机会输钱,1/62,000的机会输1,000元以上」,他们的重点当然是说,假如效用理论可以跟这个愚蠢的偏好一样一致的话,那么,一定有什么地方出错了。山谬森没有看到罗宾对小额赌注也有严重损失规避的证据,但是即使看到了,他也不会惊奇。他甚至愿意去思考人们是否会理性拒绝这一百次赌局的可能性,由此可看出他对理性模式的强烈信仰了。
让我们来假设一个非常简单的价值函数,用它来描述山谬森的朋友(且叫他山姆)的偏好。为了表示他对损失的厌恶,他先重写赌局,每一次输了,损失金额要乘以2,然后他计算这个新赌局的期望值,下面是掷三次铜板的结果,只要这三次就足以让你一看之下,瞳孔放大了。

你可以看到赌局的期望值是50元,然而,掷第一次对山姆来说,一点价值也没有,因为他感受到输1元的痛是赢1元的快乐的两倍。在重新写过赌局规则来反映他对损失规避后,他发现这赌局的期望值是零。
现在请来看一下掷第二次的情形。现在输钱的机率下降到25%,两个极端的结果(输200或赢400)在价值上互相抵消了,他们喜欢的程度是相同的,输的加权是赢的两倍,但是中间的结果(一输一赢)是可能的,所以综合起来看。现在你可以看到窄框的代价以及合计的魔力,这里是两个偏好的赌局,拆开个别看对山姆一点好处也没有,假如他是在两个不同的场合看到这个条件,他一定会拒绝去赌。然而,假如他把这两个赌局绑在一起,它们就值得50元了。
当把第三个赌局也绑在一起时,就更好了,两个极端的结果仍然是相互抵消,但是它们已经变得不重要了。当掷第三次时,虽然就它本身来看,是一点价值也没有,但是它已经增加了62.5元到整个计划中。到这个时候,山姆已经赌了五局了,期望值会是250元,他输的机率是18.75%,他的现金等值是203.125元。这个故事值得注意的一点是,山姆从来没有动摇他对损失的规避。然而,把偏好的赌局绑在一起时,快速地减少了输的机率,而损失规避对他偏好的影响已经逐渐消失了。
现在,假如山姆拒绝一个单次很高机率会赢的赌局,我就要劝告他下面这段话,假如你跟他一样,也是对损失规避有着不合理的坚持,那么这段话也是讲给你听的:
我同情你讨厌输的感觉,但是对损失规避会花掉你很多的钱。请考虑一下这个问题:你现在躺在床上快要死了吗?这是不是你这辈子最后一个赢面不大的小赌局?你不可能再有机会去赌同样的赌局,但是你有很多的机会去考虑许多有趣的赌局,赌注跟你的财富相较之下很小。你会帮你自己的财务状况一个大忙,假如你能够看到每一个这种赌局都是许多小赌局绑在一起的话。假如你一直复诵这个神咒 (mantra)──你赢一些,你输一些──这会使你非常接近经济学上的理性。这个神咒的主要目的是在你输的时候控制你的情绪反应。假如你相信神咒是有效的,在决定要不要接受一个有正向期望值的小风险时,用它提醒你自己。使用神咒时,请记得这些条件:
- 当赌局是真正彼此独立时,它才会发挥作用,它不适用于同一产业的多重投资,它会全军覆没。
- 当可能的损失不会使你对你整体财富担忧时,它才会发挥作用,假如你会把损失看成你经济情况的一个恶耗,就要小心,不可用它。
- 它不可用在长期的赌注上,即当每一个赌注赢的机率都很小时。
假如你有这个规则所需要的情绪纪律,你就永远不会把小的赌局看成一个独立的单一事件,或为很小的赌局产生损失规避,直到你最后已经躺在床上,随时准备升天了──即使在那个时候,也不可以。
这个忠告并非不可能遵循,在金融市场有经验的交易者每天都这样过日子,保护自己不受损失的痛,他们用的方式就是这个广框。就如前面提到的,我们现在知道实验的受试者几乎可以完全治愈他们的损失规避,只要引导他们去「跟交易者一样的思考」(think like a trader),就好像有经验的棒球卡交换者不会像新手一样受到禀赋效应的影响,他不会舍不得把卡片交换出去,只要这个交换对他是有利的。学生们会在不同的指示下做出有风险的决策(去接受或拒绝他们会输的赌局)。在窄框的情境,他们接到的指示是「把每一个决定当作是单独一个的决定」,而且告诉他们可以接受跟随赌局而来的情绪。对广框组受试者的指示是「想像你自己是个交易者,你每天都在做这种决定,把它当作金钱交易决定中的一个,它最后加总起来会成为你的投资组合。」这个实验用生理的测量(如测谎时皮肤上电流反应、心跳、肌肉张力等等)来得知受试者对赢和输的情绪反应。如同我们预期的,广框的受试者对输的情绪反应较钝,也较愿意去接受风险。
损失规避和窄框结合起来是一个很花钱的诅咒。个人投资者可以避免这个诅咒,达到广框的情绪益处,同时也可减少一直去看他们投资表现的频率来节省时间和痛苦。密集去看每天投资的波动会失去原有的立场,因为频率高的小损失所带来的痛苦,会超越同样频率所带来小赢的喜悦,个人投资者就会忘记当初投资的初衷。大概每三个月检视一次投资表现就够了,甚至还不需这么频繁。除了增进生活的情绪品质,特意避免去看到短期的结果会增进决策和结果的品质。看到季报甚至半年报的投资者不会一直接到坏消息,也比较不那么损失规避,他最后赚的钱反而比较多。假如你不知道每一张股票每一天(或每一周、每一个月)的表现是如何,你就不会去操那个无用的心,若能在几个周期内不改变你的立场(相当于投资的「套牢」)会增加你财务的表现。
风险政策
倾向于窄框的决策制定者每次面对一个风险选择时,就会去建构一个偏好。假如他们有风险政策的话,他们投资的表现会更好,因为只要出现相关问题,就能用同样的政策去应对。熟悉的风险政策例子如:在买保险时,永远选最高的赔偿金自负额 (deduction),永远不要买「延长保证」[1]。风险政策是一个广框,以保险公司为例,你预期偶尔会有损失发生,或某一个没有被保险到的产品失去功能了。保险就是买了心安,它使你能减少或去除偶然发生的损失所带来的痛苦,因为你知道保险公司会赔偿你,你的损失被减少到最低。
合计的风险政策跟我之前谈到计划问题中的外在看法很相似。外在看法可以改变注意力焦点,从目前某个特定情境移转到同样情境的统计结果。外在看法就是计划思考的广框。风险政策也是一个广框,在一组类似选择中嵌一个特定的风险。
外在看法和风险政策是两个影响很多决定的明显偏见的补救办法:一个是计划谬论的夸大乐观,另一个是因损失规避而产生的过分小心,这两个偏见是相互对立的。夸大的乐观保护个人和团体组织不受损失规避所带来的瘫痪效应。损失规避保护他们不受过度自信乐观幻想之害。这结果对决策制定者来说很好,乐观者认为他们所制定的政策比应该的更谨慎,损失规避的政策制定者正确地拒绝了那些边缘的提案,若不是损失规避,这些提案可能就会被接受了。当然,没有人能保证这两个偏见在每一个情境都能彼此抵消掉。一个能够去除过度乐观和过度规避损失的组织应该可以办到。外在看法和风险政策两者的组合应该是组织的目标。
瑟勒谈到有一次他与一间大公司25个部门的高阶经理人讨论决策制定。他问这些经理人一个问题:假如有同样的机率,会输掉很大一笔他们手上保管的资本,或赢得双倍的钱,他们会冒这个风险吗?结果没有一个主管愿意去冒险,瑟勒于是转向这个公司的执行长,问他同样的问题,执行长毫不犹疑地回答:「我要他们全部都去接受这个风险」。在那个谈话的情境下,执行长很自然地采取广框的政策,把25个赌局统统包括进来,就像山姆面对100个铜板的抛掷一样,他可以相信统计的合计去减少整体的风险。
说到风险政策
「告诉她像股票经纪人一样的思考,你赢一些,你输一些!」
「我决定只要每一季去评估一下投资组合即可,我对损失有太大的厌恶,使我不能看着每天起伏的价格做出理性的判断。」
「他们从来不买延长的保险单,这是他们的风险政策。」
「我们每一个执行长在他们自己的领域中都是损失规避的,这非常自然,但是这结果却造成组织保守,没有去冒足够的风险。」
32 计分
除了非常穷的人,他们的收入仅能维持生活,对大部分追求金钱的人来说,他们主要的动机不一定是经济上的。对要赚另一个1亿元的亿万富翁来说,或者为赚一点零用金参加经济学专案实验的受试者来说,钱是自我看法和成就量表上的一个点。这些报酬和惩罚、承诺和威胁,都在我们的脑海中,我们仔细地为它们计分。它们塑造了我们的偏好,促使我们行动,就像社会环境中的激励动机。我们拒绝停损,因为停损就等于承认失败,我们不喜欢会带来后悔的行为,但是可以很清楚地区分失职和职责 (omission and commission),做和不做。因为每一个人对责任的感觉不同。报酬或是惩罚带来的最终价值通常使人有情绪反应,这是心智的自我感觉形式,当个人替组织做代理人时,不可避免会产生的利益冲突。
心智帐户
瑟勒多年来一直为会计的世界和我们用来组织并运作生活的心智帐户的相似性着迷。心智帐户有很多种类,我们把钱存在不同的帐户中,有的时候是实质的,有的时候是心智的。我们花钱、储蓄、为孩子存教育基金,或是医疗费用。我们心中有很清楚的轻重缓急层级,知道该从那些帐户中提款来应付燃眉之急。我们用帐户来达到自我控制的目的,例如我们做家用帐的预算,限制每一天喝义大利浓缩咖啡的杯数或增加运动的时间,这一项预算用完了就不可以再花钱。我们常会为自我控制付出代价,例如,把钱存入储蓄帐户,可是信用卡上又有未偿还金额。理性代理人模式的经济人并不会诉诸心智帐户﹕他们对结果有完整的看法,而且被外在诱因所驱使。对普通人来说,心智帐户是窄框的形式,每件事都被我们的心智牢牢的控制、处理着。
心智帐户常被用来计分,记得高尔夫球员在避免柏忌时,会比想打出博蒂时打得好吗?我们从这得到的一个结论是,最好的高尔夫球选手为每一洞创造一个个别的帐户,而不是将整体的成功记录在单一帐户。瑟勒在他早期的论文中举了一个令人出乎意料的例子,是目前对心智帐户如何影响行为最好的说明:
两个球迷计划要开40英里的路去看一场篮球赛,有一个人已经买了票,另一个人正要买票时,他的朋友送给他一张票。当天气象报告说晚上有暴风雪,你觉得这两个人哪一个人比较会不顾风雪,冒险去看球赛?
答案显而易见,那个自己付钱买票的人比较会冒风雪去看球赛。心智帐户提供了一个解释。我们假设两个人都在他们心中开了一个要去看球赛的户头,没去看户头就会被关掉,而且留下负数。不管他们是怎么拿到球票的,两个人都会很失望──但是关掉户头对花钱买票的人负得更厉害,因为他花了钱又没看到。留在家里对这个人来说是更糟的感觉,所以他比较有动机去看这场球赛,也就比较愿意在风雪中开车了。这些是系统一对情绪平衡默默地在计算,是未经深思的运作。标准的经济学理论并没有把人们依附在他们心智户头的情绪计算在内。经济人知道这票已经买了,不能退票,这个开支是已经花出去了,经济人不会在乎这票是自己买的还是朋友送的。为了要达成这个理性的行为,系统二就必须要知道这个非事实的可能性:「假如这张票是朋友送我的,我还会冒风雪去看吗?」这个困难的问题需要一个有纪律的心智主动提出。
一个类似的错误折磨着个人投资者,当他把股票卖掉时:
你需要钱去支付你女儿的婚礼,所以你必须卖掉一些股票。你记得每一张股票的买进价格,也能指出哪些是赚钱的股票,目前的价格都比你买的时候高;哪些是赔钱的股票,现在的价格比你买的时候低。在你的投资组合中,蓝莓磁砖是赚钱的,如果你今天卖掉它,你会赚5千元。你也同样投资在第凡内汽车,它现在的价钱比你买的时候少了5千元。这两种股票的价值最近几周都很稳定,你会去卖哪一支股票?
你可以这样想:「我应该关掉蓝莓磁砖的帐户,在我的投资记录上留下一个成功者之名。但是,我也可以关掉第凡内汽车的帐户,在我的纪录中,多增加一笔失败的纪录。我应该怎么做?」
假如这个问题被框架成给你自己快乐或给你自己痛苦,你当然会去卖掉蓝莓磁砖,享受你成功投资者的滋味。金融的研究发现大部分人会去卖赢的股票而不会去卖输的股票。这个偏见有一个不直接了当,不易懂的名字,叫「处置效应」(disposition effect)。
处置效应是窄框的一个例子。投资者为他买的每一个股票设立一个户头,他要在赚钱时才关掉户头。一个理性的代理人会通盘来考量投资组合,把未来可能表现最不好的股票卖掉,而不会去考虑这是赚的还是赔的。特维斯基告诉我他跟一位金融顾问的谈话,这个人跟特维斯基要他所买的所有股票的名称,包括买进价格,当特维斯基很客气地问:「买进来的价格不是应该没有什么关系吗?」这位金融顾问表现出很惊讶的样子。他显然一直认为心智帐户的现状是一个有效的考量。
特维斯基对这位金融顾问信念的猜测可能是对的,但是他认为买进价格无关是错的。买进价钱的确有关系,甚至连经济人都应该去考虑它。处置效应的偏见代价很大,因为应该去卖赚的还是赔钱的股票,其实有很清楚的答案,并不是说选择卖哪一支股票都没有差别。假如你关心的是你的财富而不是你立即的情绪,你应该卖掉第凡内汽车的股票而保留赚钱的蓝莓磁砖。至少在美国,税提供你一个很强的动机:卖亏本股票所亏的钱可以减税,而卖赚钱股票所赚的钱要课税。这是所有美国人都知道的最基本的财务事实,造成所有投资者在一年的某个月(12月)卖掉他赔本的股票(因为美国税年终止在12月31日)。抵税的好处当然是每一个月皆如此,但是一年中有十一个月,你的心智帐户战胜你的普通常识,直到年底要报税了,你就得赶快处理了[1]。另一个反对卖赚钱股票的论点是一个历历可考的市场异象:一个最近很红的股票它很可能继续红一阵子。这个净效果很大:卖掉第凡内汽车而不是蓝莓磁砖的次年预期税后收入是3.4%。关掉一个赚钱的心智帐户是很愉悦,但是这愉悦是要付代价的。这个错误是经济人永远不会犯的,而一个会运用系统二的有经验投资者,也比较不会像新手一样去犯这个错误。
一个理性的决策制定者只会对目前投资的未来结果感兴趣。为先前的错误找理由不是经济人所关心的。当有更好的投资机会出现,却把更多的钱投入一个赔钱的帐户中叫做「沉没成本谬误」,这在很多大决策和小决策中都是损失惨重的错误。在暴风雪中开车去看球赛只因为已经买了票,就是一种沉没成本谬误。
想像一个公司已经花了5千万在一个专案上,这个专案不仅进度落后,而且现在预测它的收益比一开始计划这个专案时差得多,你需要再投资6千万下去才能使这专案起死回生。另一个选择是把钱投到另一个新的、目前看起来会带来更高收益的专案上,你认为这公司会怎么做?太多公司受到沉没成本的折磨,决定还是开车进入暴风雪中,把钱白白投进无望的帐户中,而不愿接受关掉失败帐户的羞辱。这个情况在四象限型态的右上角象限中(参见第29章),在确定的损失和一个不被看好的赌局中做选择,一般人常常不智地选择这个不被看好的赌局。
对一个失败的专案持续升高承诺,继续投钱进去挽救,从公司的立场来说是个错误的事,但是从「拥有」这个挣扎专案的执行长来说,并不见得一定是错误。把专案取消会在这个执行长的纪录中留下一个永久的污点,从他个人的利益来看,他当然会用公司的钱去赌一下,希望赢回当初的投资──或至少延缓必须认输的日子到来。在沉没成本出现时,经理人的动机跟公司和股东的目标就偏离了,这种常见的错误叫做「代理问题」(agency problem)。董事会很清楚这种冲突,常会把这种受先前决策影响不愿意承担损失的执行长换掉。董事们不见得认为新的执行长就会比旧的能干,但是他们知道新的执行长没有心智帐户的包袱,在评估目前的机会时,比较容易去忽略过去投资的沉没成本。
这个沉没成本谬误使人们在不好的工作、不愉快的婚姻、没有希望的研究上待得太久。我常看到年轻的研究者在一个注定毁灭的专案中挣扎,其实他们最好是放掉它,重新开始一个新的。幸运的是,研究发现这个谬误至少在一些情境下可以被克服。经济学和商业课程中有教学生如何辨识沉没成本谬误,也得到很好的效果:证据显示这些领域的研究生比别的学生更愿意放弃一个失败的专案。
悔恨
悔恨是一种情绪,同时也是我们加诸给自己的一个惩罚。恐惧悔恨是很多人在做决定时的一个影响因素(「不要做,你会后悔的」是一个常见的警告),而这悔恨的经验是每个人很熟悉的。两个荷兰心理学家曾经仔细地研究过悔恨的情绪状态,他们说悔恨是「伴随着应该准备充分一点、有不祥的预感、觉得自己犯了一个错,让机会流失了、恨不得踢自己一下来改正这个错误、很想重头来过、想得到第二次机会」的感觉。强烈的悔恨是当你想像你可以怎么做却没有这样做,或你做的是你觉得不应该做的感觉。
悔恨是被真实的另一个可能性所引起的非事实情绪。每一次飞机失事,就有很多说某人不应该搭上这班死亡飞机的故事──他们在最后一刻才拿到了机位、他们被别的航空公司转过来搭、他们本来应该早一天出发,因故延了一天。这些故事的共同点就是他们都涉及不寻常的事件,不寻常的事件比寻常的事件容易在想像中还原,重来一次。联结记忆中的表征是正常世界的表征,一个不寻常的事件会吸引我们的注意力,它同时也会活化这个念头──在同样的情况下,它如果正常发展的话会怎么样。
要了解悔恨和正常的关系,请看下面这个情境:
布朗先生几乎从来不载搭便车的人,昨天他让一个人搭便车,结果就被抢了。
史密斯先生常常顺道载搭便车的人一程,昨天他让一个人搭他的便车,结果被抢了。
你认为这两个人谁会比较悔恨?
结果不令人惊讶:88%的受试者认为是布朗先生,12%的人认为是史密斯先生。
悔恨跟被怪罪不同,另一批受试者看到的是同样故事、不同的问题:
谁会受到别人较严厉的批评?
结果:布朗先生23%,史密斯先生77%。
悔恨和怪罪都是由跟常模比较而引发的,但是两个相关的常模并不相同。布朗先生和史密斯先生所经验到的情绪是来自他们平常对搭便车者的态度。对布朗先生来说,载搭便车的人是一个不寻常的事件,所以大部分的人会预期他会有比较强的悔恨。然而,观察者会去比较这两个人的行为与以往合理行为的常模来做判断,而比较可能会去责怪史密斯先生,习惯性地冒这个不合理的风险。我们很想说史密斯先生是自找麻烦,而布朗先生只是运气不好。但是布朗先生比较会去怪罪自己,因为在这件事上他做了一个自己平时不会做的事。
决策者知道他们很容易悔恨,并预期这个痛苦的情绪在许多决策上扮演了重要的角色。下面这个例子让你看到关于悔恨的直觉是非常一致而且明显。
保罗拥有A公司的股票,在过去一年里,他常想把它换成B公司股票,但是他后来决定不要。他现在发现假如当初换到B公司股票的话,会现赚1,200元。
乔治拥有B公司股票,在过去一年里,他把它换成A公司股票,他现在发现,假如他不换的话,他现在就赚1,200元。
谁会比较后悔?
结果也是非常清楚:8%的人说保罗,92%的人说乔治。
这很奇怪,因为这两个投资者的情况在客观上是相同的,他们两个人都有A公司的股票,两个人都是假如换成B公司股票会比较好,赚得的钱也一样多。唯一不同是,乔治是因为他采取行动才得到今天这个结果,而保罗则是没有采取行动才得到今天这个结果。这个小例子说明了一个概括的故事:人对行动所产生结果的情绪反应大于不行动所产生结果的情绪反应。这在赌局中也得到证明:人对赌了且赢了的快乐会强过抑制自己不去赌但得到同样金额的快乐。这个不对称性在损失上也是一样,也可应用到悔恨和怪罪上。这个重点不是在做或不做,而是在预先设定的选项 (default option) 和偏离预设选项的行为之间的差别。当你偏离预先设定的行为时,你可以很容易想像常模──而且如果预先设定的行为是跟不好的结果联结在一起,这两个之间的不一致就可能是痛苦情绪的来源。例如,拥有某个股票的预先设定行为是不去卖股票,但在早上遇见你的同事时的预先设定行为是打招呼。卖股票和没有跟你同事打招呼两者都是偏离预先设定的行为,都可能引起悔恨和怪罪的情绪。
在一个显示预先设定行为有多么强有力的实验中,受试者玩电脑中的21点 (blackjack),有的受试者被电脑问:「你还要不要加一张?」其他的受试者被电脑问:「你要不要停手?」不管问题是什么,假如结果是不好的(超过21点),你说「要」比你说「不要」的悔恨程度更高。这个问题显然建立了一个预先设定的反应:「我没有很强的意愿要这样做」,跟预先设定的行为不同才造成悔恨。另一个情境是行动才是预先设定的行为:有一个球队在最后一场比赛中输得很惨,教练本来被预期去换人或改变策略,如果他没有这样做,这会产生悔恨和怪罪。
悔恨风险有不对称性,它比较偏向保守常规的行为和风险规避的选择。这个偏见在许多情境可看到。那些被提醒可能会因为他们选择结果而感到悔恨的消费者显现出对保守选项的偏好,倾向购买有品牌的东西,而非一般没商标的商品。在年度快要终了时,基金经理人的行为也显现出预期评估的效应:他们会把顾客帐户中一些非传统投资会选择的股票和可能有问题的股票出清。它甚至影响生或死的决定,想像医生在诊治一个病入膏肓的病人,有一个治疗法是正常的标准疗程,另一个是特别的、不寻常的。这个医生有理由去相信非传统的治疗对病人可能有利,会增加病人的机会,但是他没有把握。开出这个不寻常治疗法的医生会面对一个巨大的悔恨、怪罪,甚至诉讼的风险。以后见之明来看,医生比较容易去想像一个正常的选择,不正常的选择比较容易被取消。没错,如果成功,好结果会增加医生的名声,但是可能的好处比起可能的坏处小太多了,因为成功一般来说是比失败更正常的结果,所以医生不会去尝试不寻常的治疗方式。
责任
在许多情境中,失的加权是得的两倍:在赌局的选择上,在禀赋效应上,在价格改变的反应上都是如此。损失规避的相关系数在一些情境中高很多。有些比金钱更重要的东西(如健康),你的损失规避会更严重;此外,「卖掉」某些重要的东西会使你蒙受严重后果时,你会强烈地不愿意卖出。在瑟勒早期的消费者行为经典研究上,有一个很引人注意的例子,我把它稍微修改一下成为下面的问题:
你曾经暴露在一种疾病之下,假如你被感染,你会在一周之内,很快无痛地死去。你得到这个病的机率是千分之一。现在有一种疫苗,它必须在任何症状出现前先施打,才会有效。你愿意付多少钱去买这种疫苗?
大部分人愿意去付很多但有上限的金额。面对死亡是件不愉快的事,但是风险很小,好像不值得花掉你所有钱去避免它。下面再看稍微不同的版本:
刚刚上面那个疾病需要自愿者来做研究。你需要暴露你自己在一个感染机会千分之一的疾病下,你至少会要求多少钱才肯参与这个实验?(你不可以去买疫苗)。
如你预期的,自愿者所要求的钱比他们愿意去买疫苗的钱高了很多,瑟勒非正式的报告说,这个比例大约是50:1。非常高的卖价反映了这个问题的两个特质,第一,你不应该出卖你的健康,这交易是不合法的,因为有勉强性所以它需要比较高的价钱才有人愿意去做。或许更重要的是,假如结果是不好的,你要负起全责。你知道有一天早上醒来发现有症状显示你感染了这个疾病,很快就要死了,你在第二个例子中感到的后悔会比第一个多,因为你可以拒绝这个贩卖健康的想法,甚至想都不要想价格就该拒绝。你应该采用预先设定的选项,什么都不要做,现在这个非事实的情况会让你后悔一辈子。
前面提到父母对杀虫剂可能有风险的反应调查中,同时也包括了他们愿意去接受增加风险的程度。实验者请受试者去想像他们用一种杀虫剂。每1万瓶中,15瓶会有吸入和孩童中毒的风险。另有一个比较便宜的杀虫剂是每1万瓶中,16瓶有风险。实验者问这些父母,要打多少折,他们才会愿意换成比较便宜、但比较不安全的杀虫剂。超过三分之二的父母表示,不论便宜多少,他们都不愿买较便宜的杀虫剂,他们显然对把孩子的安全跟金钱作交易的想法感到非常反感。那些少数愿意接受折扣的人,要求的折扣金额远高于他们愿意买更安全产品的价钱。
每一个人都能了解、也能体谅这些父母亲不愿用钱去交换他们孩子的安全,即使是增加一点点风险也不愿。然而,值得注意的是这个态度是不一致的而且有可能危害我们希望保护的安全性。即使最爱孩子的父母也只拥有有限的时间和资源去保护他们的孩子(这个「保护我孩子安全」的心智帐户预算是有限的),所以似乎应该去寻找一些方法使这些资源能够用到最好的地方。接受增加一点点风险却可以省下很多的钱,其实可以把这些钱用在更能减少孩子暴露在其他危险之下的方法,或许用它来买更安全的儿童汽车座椅,去买插座盖使孩子不会触电。不接受任何增加风险的禁忌取舍 (taboo tradeoff) 不是一个运用安全预算的有效方式。事实上,这个抗拒的动机可能来自自私的恐惧悔恨,而不是希望使孩子的安全达到最佳状态。这个「假如……?」的想法会发生在任何一个敢去做这种交易的父母心头,万一杀虫剂产生了伤害,悔恨和羞耻的影像就会一直缠绕在他的心头。
人们强烈厌恶为得到其他好处而增加风险的交易,充分展现在用来规范风险的法律和规章上,这个趋势在欧洲尤其强烈。预防原则 (precautionary principle) 禁止任何可能引起伤害的行动,在欧洲是广泛被接受的教条。在一般法规的情况下,预防原则将举证责任完全放在行动的那个人身上,他必须证明他的行为是安全的,不会伤害到人或环境。许多国际团体都强调,在没有科学证据来支持可能有伤害时,并不能当作承担风险的充分理由。法学家孙斯坦指出,预防原则代价太高,当非常严谨地解释时,它会瘫痪社会。他提到一份让人印象深刻的创新清单,但是上面的东西没有一件可以通得了预防原则的关卡,包括「飞机、冷气机、抗生素、汽车、氯、麻疹疫苗、开心手术、收音机、冰箱、天花疫苗和X光」,强版的预防原则显然是站不住脚。但是强化的损失规避则隐藏在大家都认同的强烈道德直觉中,它源自系统一。强烈的损失规避道德态度和有效的风险管理之间的两难,无法有一个简单且两全其美的解决方式。
我们每天花很多时间去预期某事的发生,并试图避免我们强加在自己身上的情绪痛苦。当我们评估我们的生活时,该多严肃地看待这个无形的结果,和自我加诸的惩罚(以及偶尔的报酬)?经济人是不会有这个情绪的,而这个情绪对普通人的代价很大。它导致一些对个人的财富、正确的政策,以及社会的福祉不利的行动。但是悔恨的情绪和道德的责任是真实存在的,没有悔恨情绪和道德责任的经济人可能与这样的行为无关。
如果让你的选择受到预期悔恨的影响,你觉得合理吗?很容易就悔恨,就像很容易就昏倒,是生活中的事实,你必须去适应它。假如你是投资者,有足够的财富,又很谨慎小心,你可能可以负担得起一个将预期悔恨减少到最低的投资组合,但它可能不是最能增加你财富的投资组合。
你也可以采取一些预防后悔的步骤,或许最有效的方式是明确的处理预期悔恨。假如你可以很明确的记得什么时候事情开始恶化,你就会在决定之前仔细考虑后悔的可能性,便能经验少一点的后悔。你同时也该知道后悔和后见之明的偏见是同时出现的,所以任何避免或排除「后见之明」的动作都会有帮助。我个人避免「后见之明」的策略是在做会造成长期后果的决定时,要不然想得非常仔细,要不然就完全随它去。「后见之明」在你有做过一点思考,刚刚好只够让你事后告诉自己说,「我差一点就做了对的选择」时是最糟的。
吉尔伯特和他的同事挑衅地说,人们通常预期的后悔感觉比他们实际经验到的更深,因为他们低估了心理防卫的功效──即「心理免疫系统」(psychological immune system)。吉尔伯特建议,你不应该太过于关注自己是否会悔恨,即使你有一些悔恨,也比你现在想像中程度少一点。
说到计分
「他的现金购买和信用卡购买有不同的心智户头,我一直提醒他,钱就是钱,不需要分开计算。」
「我们仍然持有那些股票,因为不想在关掉我们的心智户头时,帐户处于亏损状态,这就是处置效应。」
「我们在那家餐馆发现一道非常好吃的菜,为了避免悔恨,我们从来没有去试吃别道菜。」
「销售员给我看了最贵的婴儿汽车座椅,说这是最安全的,我没有办法使我自己去买便宜一点的座椅,它给我的感觉像是一个交易的禁忌取舍。」
33 逆转
你的工作是替暴力犯罪的受害者谈补偿金。这个个案中的受害者是在走进他家附近便利商店时碰上抢劫,所以被射伤,失去了他的右手。
有两个商店都很靠近受害者的住处,有一家他常常去,请想像下面两个场景。
(1)抢劫发生在他平常常去的那家店。
(2)这个人常去的店因为家里办丧事,暂时不营业,他只好去另一家店买,结果就在那家店被枪伤了。
他在哪家店被枪伤对他的赔偿金多寡有任何差异吗?
你把这两个场景联合起来一起考虑赔偿金是多少,你可以应用一个规则,假如你认为场景(2)值得比较高的赔偿金,你会给它比较高的金钱价值。
对这个答案有一个几乎是普遍同意的原则:赔偿金在这两个场景应该都一样。赔偿是因为使人受伤变成残废,跟在哪里受伤没有任何关系。两个场景联合一起考虑是给你一个机会去检视你跟受害者赔偿有关的道德原则。对大部分人来说,受伤的地点不是考虑因素,就像其他需要明确比较的情境,这种思考是慢的,是系统二在运作。
心理学家米勒和麦克法兰 (Cathy McFarland) 就是最初设计上述两个场景的人,他们请不同的受试者逐一评估上述两个场景。在他们受试者组间设计的实验中,每个受试者只有看一个场景,分配一个金钱的价值给它。他们发现(相信你现在已经猜到了),受害者如果在他很少去的那家店受伤的话,他拿到的赔偿金比他在平常去的那家店受伤还多很多。懊恼跟悔恨很类似,是「后见之明」的感觉,它会被引发出来是因为一般人心里自然会生出「要是他去平时买东西的那家店就好了……」的念头。这个熟悉的系统一的替代机制和强度配对,把情绪反应的强度转换成了金钱的量表,创造了一个赔偿金额的大差别。
这两个实验的比较显示了一个大的对比。几乎每一个一起看到这两个场景的人(受试者组内设计),都认为懊恼不应该是法律上应考量的因素。很不幸的是,这原则只有在两个场景同时考量时,才会发挥作用,它不是我们平常生活运转的方式。我们的生活通常是以受试者组间设计的模式在运作的,并不会出现可能改变你心意的对比场景。当然,还有WYSIATI。因此你的道德观不见得能掌控你的情绪反应,而在不同场景下进入你心中的内在道德直觉是不一致的。
单一评估和联合评估抢劫场景所造成的差异是属于广义的判断和选择逆转。第一个逆转偏好是在1970年代初期被发现的,后来陆续有许多逆转的例子被发现。
挑战经济学
偏好的逆转一向在心理学家和经济学家的对话中,占有一席之地。列支斯坦和史洛维克这两个心理学家所报告的逆转现象,吸引了大家注意力。他们两人在密西根大学做研究生时,正好特维斯基也在那里,他们做了一个赌注偏好的实验,我把它稍微修改如下:
在有36个号码的大轮盘中,你可以从下面两个赌注选择一个。
赌注A:11/36赢160元,25/36输15元。
赌注B:35/36赢40元,1/36输10元。
你要在安全的赌注和最有风险的赌注中选一个:一个几乎确定是赢很少的钱;另一个是很小的机会去赢很大的钱,而且有很高的机率输。安全感很吸引人,所以大部分人选择B。
现在请把每一个赌注分开来看:假如你拥有那个赌注,你愿意把它卖给别人的最低价是多少?请记得你不是在跟别人讨价还价,你的作业只是决定最低多少钱,你就愿意放弃这个赌注。试试看,你可能会发现,可以赢到的钱在这个作业中很突出,你评估这个赌注值多少钱是定锚在这个价值上。这结果支持了我们的猜测:你愿意卖A的价格是高于卖B的。这就是偏好的逆转:人们在选择赌注时会选B而不选A,但是假如他们想像自己拥有A或B(其一),他们把A的价格设定得比B高。就像在前面提到被枪伤的情境中一样,发生了偏好的逆转,因为联合起来评估将注意力聚焦在情境的一个层面──事实上,A赌局没有B赌局安全,而这点在单独评估时,比较不突出。那个在单独评估时引发不同判断的特质(例如受害者去到了不该去的店,后来被枪击中),在联合起来一起评估时,被压下了或觉得是不相干的。系统一的情绪反应在单独评估时,很可能是决定的因素,但是在两个一起共同评估时,比较两个情境的不同就引发了系统二的参与,因为系统二是需要比较小心、比较费力的评鉴,效果就不同了。
偏好的逆转在受试者组内设计的实验中也被确定。在这个实验中,受试者对很多商品做出两套定价并从中做出选择。受试者并没有意识到自己选择时的不一致性,他们在被指出这种不一致性时,反应是很有趣的。列支斯坦在1968年访问一个受试者的纪录,现在已经变成经典了。实验者花了很多时间跟这个很困惑的受试者谈话,这个受试者选了某个赌注,不要另一个赌注,但是又愿意付钱去把他刚刚选的换成他刚刚拒绝的,重复的偏好逆转一直这样循环着。
理性的经济人绝对不会有这样的逆转偏好,因此这个现象变成对理性代理人模式的挑战,也对建构这个模式的经济学理论是个挑战。这个挑战其实可以被忽略的,但是没有。在偏好的逆转这篇论文刊出后没有几年,两个很受尊敬的经济学家葛雷瑟 (David Grether) 和皮劳特 (Charles Plott) 在很有权威的《美国经济学评论》上发表了一篇论文,报告了他们自己对列支斯坦和史洛维克所描述现象的研究。这可能是第一次实验心理学家的研究吸引了经济学家的注意。葛雷瑟和皮劳特这篇文章的前言就学术论文来说,非常的戏剧化,但是他们的意图是很清楚的:「一些数据和理论在心理学中发展出来了,经济学家应该会感兴趣。这些数据表面上看来跟偏好理论不一致,而且会对经济学研究的优先顺序间接产生影响……这篇论文中的一系列实验结果试图证明心理学研究不适用于经济学。」
葛雷瑟和皮劳特列出十三个可以解释原始发现的理论,很小心地设计实验来验证这些理论。其中有一个假设──不用说,心理学家觉得很荣幸──结果会这样是因为这实验是心理学家做的!最后成立的假设只有一个,没有被击破:心理学家是对的。葛雷瑟和皮劳特承认,这个假设最不符合标准偏好理论,因为「它使个人的选择取决于抉择当下的情境」──明显违反了一致性的教条。
你可能会想,这个令人惊异的结果会引起很多经济学家苦恼地搜索着他们的灵魂,因为经济学理论的基本假设被成功地挑战了。但是社会科学不是这样运作的,包括心理学和经济学都是如此。理论的信念是很强壮的,需要很多令人发窘的发现,才能使一个已经被建立起来的理论被质疑。事实上,葛雷瑟和皮劳特这么辛苦研究出来的报告,在经济学家之间并没有引起什么直接的效应,不过它使经济学家愿意严肃去看待心理学的研究,这也使两个领域的人跨界交谈前进了很多。
类别
约翰有多高?假如约翰是5呎高,这时你的回答就要看他的年龄:假如他是六岁的孩子,那么他算很高,假如他十六岁,那么他算很矮。你的系统一自动提取相关的常模,而身高量表的意义也自动跟着调整了。你也可以把不同的类别配对来回答这个问题,「餐厅里一顿饭的价钱多高,才算符合约翰的身高?」你的答案也是要看约翰的年纪而定,假如约翰已经十六岁,那这顿饭就比他才六岁来得划算。现在请看下面:
约翰六岁,他是五呎高。
吉姆十六岁,他是五呎一吋高。
在单独评估时,每一个人都会同意约翰是非常高,吉姆不是,因为他们是跟不同的常模来比较。假如你被问到的是一个直接比较的问题,「约翰是不是和吉姆一样高?」你会回答不是,这里没有惊讶,也没有模棱两可之处。然而,在其他情境下,物体和事件在它们自己的情境中比较时,会导致对重要事情的不一致选择。
你不要以为单独评估和联合评估就一定是不一致的,或判断就一定是完全混乱的。我们的世界区分出许多类别,每个类别都有常模,例如六岁的男孩或桌子。在同类别中,判断和偏好是合理的、一致性的,但是当物体跟别的类别相比时,常会有不一致的情形。
你比较喜欢哪一个?苹果还是桃子?
你比较喜欢哪一个?牛排还是炖牛肉?
你比较喜欢哪一个?苹果还是牛排?
第一个和第二个问题里的东西都是属于同一个类别。你立刻知道你喜欢哪一个。此外,你可以从单独评估中知道排序──「你有多喜欢苹果」和「你有多喜欢桃子」,因为苹果和桃子都属于水果。因为不同的水果是跟同一个常模在评比,在单独评估和联合评估中,每种水果都可以直接评比,因此没有偏好逆转。类别不相同的苹果和牛排相比时,没有固定的答案。不像苹果和桃子,苹果和牛排不是相互可以替代的,它们并不能满足相同的需求。你有的时候想要牛排,你有的时候想要苹果,但是你很少说这两种食物可以互相替代。
想像你从一个你平常很信任的一个组织收到一封电子邮件,叫你捐钱:
很多繁殖海豚的场所现在都受到污染的威胁,海豚的数量预期会因此而减少。有一笔私人的捐款已经设立了一个特定的基金,专门用来提供没有污染的海豚繁殖区域。
这个问题会引发什么样的联结?不论你是否觉识,相关的念头和影像都来到你的心中,那些要去保护濒临绝种动物的专案会特别被回忆起来。评估「好-坏」的向度是系统一的自动化操作。你对海豚在进到你心中的动物排序上是如何,有个初步的印象。例如,海豚比雪貂、蜗牛或鲤鱼可爱多了──牠在许多人心目中排名是很高的。
现在你要回答的问题不是你是否比较喜欢海豚,比较不喜欢鲤鱼,你现在必须得出金钱的价值。当然你可能从之前向你募款的经验中知道,你从来不理会这种劝募方式。请用几分钟想像你自己是会因这种方式而捐钱的人。
像很多其他困难的问题一样,要评估金钱价值问题可用替代和强度配对的方式来解决。金钱问题是困难的,但是手边就有一个容易的问题,因为你喜欢海豚,你可能觉得拯救牠们是一个值得投入的主意。下一步仍然是自动化的,你会把你对海豚的喜爱转换成一个捐款的量表。你还记得你上一次捐款给保护环境基金会的量表,这跟你政治捐献,或捐给你母校足球队的量表不同。你知道多少金额的捐款对你来说是很大,什么金额算是大、中,或小。你对这些动物的态度也有个量表,从「很喜欢」到「一点都不喜欢」。所以你可以把你的态度转换成金钱的量表,很自动地从「很喜欢」转换到「相当大的捐款」,得出捐款的钞票张数。
在另一个情境是:
每天在太阳底下晒好几个小时的农场工人,比一般人罹患皮肤癌的比例高。经常性的检查可以减少皮肤癌的风险,我们会设立一个基金来支持这些农场工人的身体检查。
这是一个紧急的问题吗?当你评估它是否有紧急性时,会引发哪一个类别的常模?假如你自动把它归到公共卫生这个类别,你可能会发现皮肤癌的威胁性在农场工人中并不是排序很高的一个疾病──几乎比海豚在濒临绝种的动物中的排序还低。当你把跟皮肤癌相关的讯息转换到金钱量表上时,你可能捐的钱比你捐给保护动物的还少。在实验里,海豚吸引到相当多的捐款,比农场工人还多。
下面请考虑在联合评估中的两个因素。海豚和农场工人哪一个应该得到比较多的捐款?联合评估时,让单独评估中没有被注意到的特质凸显出来了。现在这个特质有决定性的力量:农夫是人,海豚不是。你当然知道。但是这在单独评估时,它不会跟你的判断有关。海豚不是人的这个事实,在你脑海中并没有出现,因为在你记忆中活化的每一个议题都具备这个特质。农夫是人的这个事实,也没有进入你的心中,因为所有公共卫生相关的议题都牵涉到人。单独评估的窄框使得海豚有比较高的强度分数,进而在强度配对上,得到比较高的捐款。联合评估改变了议题的表征:当「人类vs.动物」两个放在一起看时,这特质变得鲜明突出。在联合评估中,人们对农夫显现强烈的偏好,愿意捐比保护海豚等非人类物种多很多倍的钱来提供他们福利。我们再一次看到,在单独评估和在联合评估时,所做的判断是不一致的,这跟赌注和抢劫案的情形一样。
芝加哥大学的奚恺元教授,创造了下面这个偏好逆转的例子。这里要评估的对象是二手音乐字典。

当单独评估时,字典A的价格比较高,但是当然,当两个放在一起比时,偏好就改变了。这个结果说明了奚恺元的评估能力假设 (evaluability hypothesis):在单独评估时,字典里面有多少条目是不重要的,因为数量本身是不能单独评比的。在联合评估时,你马上看到,字典B比字典A强,因为它的内容多,而且这时两个字典的条目数量可以互相比较,而字典收藏字的数量当然是比字典外表的情况重要得多。
不公平的逆转
我们有很好的理由相信法院中有好几个领域有受到可预期的不连贯性的影响。这证据来自实验,包括假陪审员的研究 (mock juries),有一部分来自立法、规章和诉讼案的观察。
在一个实验中,假陪审员被要求去评估民事诉讼案中惩罚性损害的金额,这些陪审员是从德州陪审员名单中挑出来的[1]。这些案子都是两个两个一起进来,每一对中都有一个是身体受伤,一个是财务损失。假陪审员先评估一个案子的赔偿金,然后再给他们看同组中另一个案子,请他们去比较这两个案子,下面是某一对案子的摘要。
案子一:一个小男孩在玩火柴时,睡衣着火了,孩子被烧伤了,制造睡衣的公司没有用合适的防火布来做睡衣。
案子二:某银行在交易时不慎使另一银行损失了1千万元。
一半的受试者先看第一案(单独评估),然后再两案一起比较。另一半的受试者则先看第二案,然后再两案一起比较。在单独评估时,陪审员给受害银行较高的惩罚性赔偿,金额比给受伤的孩子高。这可能是因为银行财务损失的金额比较高,因而提供了较高的锚点。
当两个案子一起比较时,对孩子的同情心就胜过锚点效应,陪审员增加了给孩子的赔偿金使它超过给银行的钱。把这些案子平均来看,对伤害赔偿的联合评估,都比单独评估时,高了一倍。看到烧伤案子的陪审员在单独看到这个案子时,给了跟他们感觉强度一样强的赔偿金额。他们无法预期,在跟银行的赔偿一比之下,给孩子的赔偿显得如此不恰当。在联合评估时,对银行的惩罚性赔偿仍然维持在它损失的锚点,但是对受伤孩子的赔偿拉高了,反映出对引起孩子受伤的疏忽的强烈愤慨。
如我们所看到的,理性通常都会受到比较广、比较完整的框架的影响,而联合评估比单独评估的框架更广。当然,假如那些能控制你会看到什么的人,对你的选择有着不当利益的话,你要特别小心这种结合评估。销售员很快就学会如何操弄情境,使顾客去买他们希望顾客买的东西。除了这种特意操弄的例子,比较的判断因为必须动用到系统二,所以它比单独评估更稳定,这个现象反映在系统一的情绪反应强度上。我们可以预期一个机构(或公司)如果希望引发深思的判断,会设法提供法官更广泛的背景使他在评量个别案子时,对这个机构有利。我从孙斯坦那里很惊讶地得知,陪审员在考虑惩罚性的赔偿时,竟然是很明确地禁止他们去考虑别的案子。法律系统,跟心理学的普通常识正好相反,他们是喜欢单独评估的。
在另一个研究法律系统不一致性的专案中,孙斯坦比较了美国政府不同部门,包括职业安全及健康署 (Occupational Safety and Health Administration) 和环境保护署 (Environmental Protection Agency, EPA) 所能给的行政惩罚权后,下结论说,「在同类别中,刑罚似乎非常合理,至少比较严重的伤害惩罚得比较重。对违反职业安全和健康的行为,最大的惩罚是重复违反告诫不听,第二大的是故意违反及情节重大,最轻的是没有保持良好纪录的行为」。这个结论不应该使你惊讶,然而惩罚的轻重在每个公部门中差异性很大,这反应出其特有的政治和历史因素,而没有考虑到普遍的公平性。严重违反工人安全条例最高可罚到7,000美元,但是违反野鸟保育条例可罚到25,000美元。这个罚金在每一个公家机关自己内部比较时是合理的,但是跨部会来比较时,人不如鸟。就如在本章中另一个例子所示,只有在两个案子放在一起用广框去比较时,才会看到不公平或不合理的地方。行政惩罚系统在该机关内合理,与别的机关整体来看时却不合理。
说到逆转
「这个英制热单位 (BTU) 对我一点意义也没有,直到我看到冷气机的性能规格有这么多种不一样的单位。联合评估是对的。」
「你说这是一场非常好的演讲,因为你把她这次演讲和其他演讲放在一起比较,但是如果把她和别人一起比时,她还是比较差。」
「当你放大框架时,你会做出比较多的理性决策。」
「当你个别看案子时,很容易受到系统一情绪反应的影响。」
34 框架和真实界
义大利和法国竞争2006年世界杯足球赛冠军。下面两个句子都描述了结果,「义大利赢」,「法国输」。这两个句子有着同样的意义吗?这答案完全看你怎么去定义「意义」。
对逻辑推理来说,这两个描述球赛结果的句子是可以互换的,因为它们都表示了世界上的同样状态。就如哲学家说的,它们的真实条件是相同的:假如这两个句子中有一个句子是真的,那么另外一个也是真的。这是经济人了解事情的方式。他们的信念和所偏好是受到真实界规范 (reality-bound) 的,尤其是他们所选的对象是来自世界的状态,它不会受到选择来描述这个状态的字眼所影响。
但是还有一个「意义」的意思在那里,「义大利赢」和「法国输」有着不同的意思。在这里,一个句子的意义是当你了解它时,它在你联结机制中所引发的作用。这两个句子引发相当不同的联结。「义大利赢」引发关于义大利队的思想以及他们做了什么才会赢。「法国输」引发关于法国队的思想,以及他们做了什么使他们输掉了,这里面包括一个义大利球员被法国足球明星席丹 (Zidane) 头槌的影像。就这两个句子带到心中的联结来说──即系统一如何对它们做反应──这两个句子真是有不同的意义。在逻辑上相同的句子会激发不同的反应这个事实就使你知道,人是不可能像经济人那样理性的。
情绪的框架
特维斯基和我把框架效应应用到公式对信念和偏好的不公平影响上。这是我们用的一个例子:
你愿意接受一个赌局,它给你10%的机会去赢95元,和90%的机会去输5元?
你愿意花5元去买一张彩券,它给你10%的机会去赢100元,90%的机会什么都没赢?
第一,先花点时间去说服你自己,这两个赌局是一模一样的,在这两个赌局里,你必须去决定你是否要接受一个不确定性,它使你要不然多了95元,要不然少了5元,有真实界规范偏好的人会给这两个问题同样的回答。但是这种人很少。事实上,第二个问题的陈述法吸引了很多的正向回答,假如把它写成:花一张彩券的成本去赌但是没有赢,会比你输了这场赌局要容易接受得多。我们不应该惊讶:「输」引发很强的负面感觉,比「成本」这两个字高得太多。我们的选择并不是真实界规范的,因为系统一不受真实界规范。
我们所建构的问题受到我们从瑟勒那儿所学到东西的影响,他告诉我们,当他还是研究生时,他在板子上钉了一张卡片:成本不是损失 (costs are not losses)。在他早期对消费者的行为研究中,他描述一个辩论──加油站可不可以因为现金或信用卡,而要消费者付不同的汽油钱?信用卡的游说集团很努力的游说立法委员使不同价钱不合法,但是它有个退路,只要价格的差异是现金折扣,而不是信用卡附加费。他们的心理学是有道理的。人喜欢折扣而不喜欢多付费用。这两项在经济上可能相同,但在情绪上是不相同的。
在一个做得很精致的实验中,伦敦大学 (University College London) 的神经科学家把框架效应和纪录大脑不同区域的活化结合在一起。为了要提供可靠的大脑反应测量,这个实验包含了很多的尝试,图14说明了其中一个尝试的两个阶段。
图14
第一,实验者请受试者去想像她收到一笔钱,在这例子中是50英镑。
受试者这时要去选择是要确定的结果还是去玩轮盘赌。如果轮盘停在白色区域,她就得到所有的钱;如果轮盘停在黑色区域,她什么都没有。这个确定的结果就是赌局的期望值,在这例子中是赢20元。
如图所示,这个同样的确定结果可以用两个方式来表达;保留20英镑或输30英镑。在这两个框架中,这客观的结果是完全相同。而一个真实界规范的经济人会以同样的方式对这两个情况做反应──选择确定的或是选择赌局,不管框架是什么──但是我们已经知道人的心智不是受到真实界规范的。文字会引起我们趋向或避免的行为,当它写的是「保留」的时候,我们预期系统一会偏向于采取确定的选择;当它写的是「输」的时候,会避免同一个选择。
这个实验做了非常多的尝试,每一个受试者都碰到好几个选择问题,在里面都有「保留」和「输」的框架。就如同我们所预期的,二十位受试者都显示出框架效应,在「保留」的框架中,他们更会选择确定事情,在「输」的框架中更会选择赌局。但是受试者并非全部一样,有些非常受到框架问题方式的影响。有的人不管框架是什么,他做同样的选择──就像真实界规范的人应该做的那样。作者依照他们的选择方式把这二十位受试者排序并标注,把它叫做「理性指标」(rationality index)。
当受试者在做每一个决定时,实验者把他们大脑的活化情形就记录了下来,于是,这个尝试被分成了两个类别:
- 受试者的选择跟框架一样。
- 在「保留」的版本中,偏好确定的事情
- 在「输」的版本中,偏好赌局
- 受试者的选择跟框架不符时。
这个卓越的结果说明了神经经济学 (neuroeconomics) 的潜力,这个新领域是研究人类在做决定时,他的大脑在做什么。神经科学家做了几千个这种实验,他们知道大脑什么地方会因为在工作,需要比较多的血流量而「亮起来」,愈亮表示大脑工作得愈勤奋,氧消耗得愈多。当受试者在注意一个视觉物体时,不同的大脑区域会活化起来,想像踢一个球,认出一张脸,或去想一个房子。当受试者情绪激发起来时,不同的大脑区域会活化起来。虽然神经科学家非常小心避免用「这个部位的大脑做这些事……」这种字眼,但他们对于不同大脑区域的个性已经很了解了。大脑部位活化的分析对心理学的解释已大有进度。下面是框架研究的三个主要发现:
- 一个跟情绪有关的地方(杏仁核)在受试者的选择跟框架一样时,最可能活化起来,这正是我们预期的。假如充满情绪的字「保留」和「输」产生立即的倾向确定的事(当它框架成「得」的时候),或避免它(当它框架成「失」的时候),情绪的刺激可以马上进入杏仁核,速度很快,是以毫秒计的,这很可能是系统一的工作。
- 一个跟冲突、自我控制有关的地方〔前扣带回 (anterior cingulate)〕在受试者没有做很自然应该会做的事──在看到「输」时,仍然选择确定的事时,这个地方会大量活化起来,抵抗系统一的倾向是会引起冲突的。
- 最理性的受试者──那些最不受到框架效应影响的──在前额叶地方有大量的活化,这个地方是综合情绪和理智去做决定的地方。很令人惊讶的,这些「理性」的受试者并不是那些对冲突显现出最强的神经反应的人。这显示,这些精英受试者常常(但不是一直都是),是受到真实界规范而没有产生什么冲突。
透过实际选择的观察和大脑神经活动的对照,这个研究提供了情绪框架很好的说明,让我们了解被文字引发起来的情绪可以渗透到最后的选择上。
特维斯基和哈佛医学院的同事做了一个实验,这个实验是情绪框架的经典例子。来参加实验的医生被告知两个治疗肺癌的新方法(开刀和镭射)的统计结果。开刀有五年的存活率,但是就短期来说,开刀是比镭射危险的。一半的受试者读存活率的统计数字,另一半读同样的讯息,但是以死亡率来表示。这两个对短期开刀结果的描述如下:
开刀后一个月的存活率是90%。
开刀后第一个月的死亡率是10%。
你已经知道结果了,在第一个框架下,84%的医生选择了开刀,在第二个框架下,50%的医生选择镭射。这两个描述是透明的,在逻辑上是相同的,一个受真实界规范的决策者会做出同样的选择,不管看到的是哪一个版本。但是系统一是很少能对情绪的字眼不起反应的,这个我们在前面已经看到很多的例子了。死亡率是个坏字,存活率是个好字。90%的存活率听起来很鼓励人,而10%的死亡率很可怕。这个研究一个很重要的发现是医生跟普通人一样,也是很容易受到框架效应的影响,这里所用的普通人是指没有医学背景的医院病人和商学院的研究生。医学的训练显然不是框架强有力效应的对手。
「保留-输」的研究和「存活-死亡」实验有一个地方很不同。在大脑影像实验中的受试者有很多的尝试,也一直去碰到不同的框架。他们有机会去辨识框架的分心效应,也可以采取共同框架来简化这个作业,把「输」的钱转换成跟「保留」一样多。一个有智慧的人(以及他警觉的系统二)应该可以学会去这样做,少数几个通过壮举的人可能是这个实验所找出的理性代理人。相反的,那些读了两种治疗法统计数据的医生,在存活率的框架下,完全没有去怀疑他们可以做出不同的选择。重新架构是要付出努力的,而系统二一向很懒。除非有明显的理由要去做不同的事,不然我们大部分人都是被动地接受决策问题,它们是怎么框架的,便是怎么框架的,很少有机会去发现我们的偏好是被框架绑住了,而不是被真实界绑住了。
空虚的直觉
特维斯基和我用一个名为「亚洲疾病问题」的例子来介绍框架的概念:
想像美国正为一场亚洲爆发的疾病做准备,这个病预期会使600人死亡。有两个方式可以来对抗这个疾病,假设科学对这两种治疗方式的预测如下:
假如采用A专案,200人会得救。
假如采用B专案,有三分之一的机会,600人会得救,有三分之二的机会,没有人会得救。
大部分的人选A专案,他们偏好确定性,不喜欢赌局。
在第二个版本中,专案的结果用不同的框架:
假如采用A'专案,400人会死。
假如采用B'专案,有三分之一的机会,没有人会死,有三分之二的机会,这600人会死。
请仔细比较这两个版本:A专案和A'专案的后果是一样的,B专案和B'专案的后果也是一样的,在第二个框架中,大部分的人选择赌局。
这两个框架中不同的选择非常符合展望理论,确定事情和赌局之间的选择是用不同方式解决的,依据结果是好还是不好而产生这个不同。决策者在结果是好的时候,喜欢确定的事情,不喜欢赌博(他们是风险规避者)。当两个结果都是负面的时候,他们会拒绝确定的事情,接受赌博(他们是风险追求者)。这些结论在以钱为主的赌局和确定的事情时,已经很确定,没有人挑战了。这个疾病的问题显示,当被测量的结果是拯救的人命或死亡的人数,同样的规则可以适用。在这个情境,框架实验显示出风险规避和风险追求的偏好并不是真实界规范的,对同一个客观结果的偏好在不同的公式时,会逆转。
特维斯基与我分享了一个他的经验,为这个故事添加了一个严肃的注脚。有一次他被邀请去对一群公共卫生的专业人士演讲,这些人是做疫苗决策和其他专案决定的人。他利用这个机会给他们看亚洲疾病的问题,一半的人看「拯救生命」的版本,另一半看「失去生命」的版本,然后请他们回答问题。这些专业人士像其他老百姓一样,受到框架效应的影响,这很令人忧心,如果这些决策官员这么容易就被一个表面的肤浅的操弄所左右,国民健康的展望堪忧。不过我们一定要记得,即使是重要的决定也是受到系统一的影响。
更令人忧心的是当人们被质问到他们的不一致性时,「你选择确定救200个生命,接着你又选择去赌一下机率,而不是接受400人死亡的那个选项,现在你知道这两个选择是不一致的,你会怎么决定?」这个回答通常是很不好意思的沉默,决定最初选择的直觉来自系统一,它没有道德基础。确定可以救多少人是好事,死亡是坏事,大部分人发现他们的系统二没有道德直觉来回答这个问题。
我很感激经济学家谢林 (Thomas Schelling),因为我最喜欢的框架效应例子来自他的书《选择和后果》(Choice and Consequence)。谢林的书是写在我们框架的研究发表之前,框架不是他主要关心的题目,他谈到他在哈佛大学甘迺迪学院教书的经验,那天的主题是税法中的儿童减免额 (child exemptions),谢林告诉他的学生,标准的减免是每一个孩子都能享受的,而且这个减免额与纳税人的收入多寡无关,他问了下面这个问题:
儿童减免额是否应该富人多一点,穷人少一点?
你的直觉会像谢林的学生一样:他们觉得当然不可以,怎么可以富人减免额多,穷人减免额少。
谢林于是指出,税法是武断的,它把没有孩子的家庭假设为预先设定的家庭,然后依每多增加一个孩子,这个家庭可以减免若干金额,这个税法当然可以重新写过,采用有两个孩子的家庭为事先设定的家庭,在新公式下,没有孩子或少于两个孩子的家庭就多付税了,谢林现在问学生:
没有孩子的穷人是否应该跟没有孩子的富人多缴同样的附加税?
这里,你可能也会同意学生的看法,他们跟第一个问题一样,大声拒绝了,但是谢林给学生看,他们在逻辑上不能拒绝这两个提案。把这两个提案并排放着,没有孩子的家庭要付的税和有两个孩子家庭要付的税在第一个问题是叫做减免,第二个问题中是增税。假如在第一个版本中,你要穷人去接受跟有小孩的富人一样的福利(或更好的福利),那么,你就应该让没有小孩的穷人去跟没有小孩的富人一样,去付同样的罚金。
你可以看到系统一在作用,它给你一个立即的反应,让你马上对任何有关穷人或富人的问题都有自己的看法,在怀疑时,偏好穷人。谢林这个问题令人惊讶的地方是这个这么显然的道德简单规则竟然不能发挥作用。对同样的问题,看文字怎么描述它,会得出相抵触的答案。当然你马上知道下面一个接着来的问题是什么。现在你已经看到了你对这个问题的反应受到框架的影响,你对下面这个问题的答案会是什么:税法应如何来对待有钱的和没有钱两种家庭的孩子?
现在,你又再一次发现你自己哑口无言。你对穷人和富人之间的差异有着道德上的直觉,但是这个直觉是依据一个武断的参考点,而且它不是跟真正的问题有关。这个问题──世界的真实状态──是每一个家庭应该要付多少税,如何去填税单中的空格,你没有马上可得的道德直觉来指引你解决这个问题。你的道德感觉是附着在框架上的,它是「描述真实」而不是真实本身。关于框架本质的讯息是很刻板的:框架不应看成偏好的介入物,它不应该遮蔽或扭曲偏好。至少在这个例子里,和在亚洲疾病和外科手术的例子里,是没有被框架遮蔽或扭曲原本的偏好的。我们的偏好是框架的问题,我们的道德直觉是描述的问题,不是关于实质的。
好的框架
并不是所有的框架都是一样,有些框架明显地比其他描述同样事情的方式好,请看下面这一组问题:
- 一位女士买了两张80元的戏票,当她到达剧院,打开皮包时,戏票不翼而飞了。你认为她会再买两张票去看戏吗?
- 一位女士想去戏院当场买两张80元的票去看戏,但是当她到达戏院,打开皮包时,发现原来要用来买票的160元不见了。她可以用信用卡买,你认为她会买吗?
只有看到一个版本的受试者会依框架有不同的反应。大部分人认为第一个故事中的女士会回家,不看戏了。大部分看第二个故事的人会认为这女士会用信用卡再去买两张票。
这个解释到现在已经很熟悉了──这个问题是有关心智帐户和沉没成本的谬误。不同的框架引发不同的心智帐户,这个损失有多强烈要看它所在的帐户。当某一场戏的票遗失时,它会很自然地贴在跟这个戏有关的户头上。这个花费是双倍,远超过看这个戏应有的价值。相反的,失去现金是放在「一般收支」的帐户上,这位爱看戏的女士是比她自以为的穷了一点而已,她会问她自己的问题是:在她可花的零用金中少了这一点钱,这应该改变她去欣赏一场好戏的决定吗?大部分的受试者觉得她不会改变看戏的心意,现在损失的戏票钱可以从下次的娱乐费中省回来。
失去现金的版本引发比较合理的决定,这个框架比较好,因为损失(即使是搞丢戏票)是一个已经「沉」的事,而忽略沉没的成本是对的。过去的历史是不相干的,唯一有关的议题是看戏者现在手边的选择和这选择的后果,不管她丢掉的是什么,她现在都比她打开皮包之前穷一点了。假如丢掉票的女士问我的忠告的话,我会告诉她:「假如你丢掉同样金额的现金,你会再去买两张票吗?假如是,那就去买张新的。」广框和包容的帐户通常会带领你去做出比较有理性的决策。
下面一个例子,两个不同的框架引发出不同的数学直觉,一个比另一个好了很多。在2008年的《科学》期刊一篇名叫〈MPG错觉〉(The MPG Illusion) 的论文中,心理学家拉瑞克 (Richard Larrick) 和索尔 (Jack Soll) 做了一个实验。他们指出,被动地接受一个误导的框架代价是很高的,而且会造成严重的政策后果。大部分买车的人都会考虑车子耗不耗油,一加仑可以跑多少英里是他们买不买这辆车的一个决定因素,他们知道如果每加仑可以多开一点里程数的车,开支可以省一点,但是在美国,传统所用的框架──一加仑跑多少英里──提供非常不理想的指引,不但对买车的个人,对公司制定决策的人也是同样不利。请看下面两个车主想要减少车子开销:
亚当把他一加仑跑12英里的车换成比较不耗油、一加仑跑14英里的车。
贝丝把她一加仑跑30英里的车换成一加仑可跑40英里的了。
假设两位驾驶每一年开车的里程数一样,谁会因为换车而省比较多的汽油?你几乎确定贝丝会比亚当省得多,她每加仑多跑了10英里,不像亚当每加仑只多跑2英里,而且从30到40英里是节省了三分之一,从12到14是只有节省六分之一。现在请动用你的系统二来算算看。假如两个车主一年都开1万英里,亚当一年的汽油消耗量会从833加仑减少到714加仑,节省了119加仑;贝丝会从333加仑减少到250加仑,节省了83加仑。这个「每加仑汽油行驶的英里数」(miles per gallon, MPG)的框架是错的,它应该用「每英里耗几加仑油」(gallon-per-miles, GPM) 的框架(或每100公里耗几公升油)才对。如拉瑞克和索尔所指出,这个因MPG框架所误导的直觉不但会误导买车的消费者,也会误导政策的制定者。
孙斯坦在欧巴马政府里担任资讯管理委员会 (Office of Information and Regulatory Affairs) 的官员。他与瑟勒合写了一本书《推力》(Nudge) 是一本把行为经济学应用到政策上的基本工具书。恰好从2013年起,美国所卖的每一辆新车上面都会有GPM的讯息,这是GPM的资讯第一次正确地让消费者知道,很不幸的是,正确的公式是小字,而大家所熟悉的MPG是大字。但是这个运动是朝对的方向在走,从发表〈MPG错觉〉到现在这五年间,已经有部分改正在进行,在公部门的历史看来,这算快的了。这算是心理学应用到公共政策的一个贡献。
许多国家的驾驶执照上都有一栏标注在意外发生时,驾驶愿不愿意捐赠器官。这里也是一个框架显著优于另一个的好例子。很少人会说捐不捐赠器官的决定是不重要的,但是我们有很强的证据,人们在做这个决定时是没有经过好好思考的。这个证据来自欧洲国家器官捐赠的比较。这个比较显现出令人惊讶的差异,它们其实都是邻近且文化相似的国家。一篇在2003年发表的论文指出,器官捐赠在奥地利几乎是100%,但是德国却只有12%,瑞典是86%,但丹麦却只有4%[1]。
这显著的差异来自框架效应,是他们问关键问题的方式,高捐赠比例的国家的问题格式是不想捐赠的人必须在那格子中打勾,除非他们做这个动作,不然他们被认为是愿意捐赠的;低捐赠的国家是你必须在格子中打勾才会变成捐赠者。要预测这个人会不会成为捐赠者,最好的方式便是去看表格是怎么设计的,看他们预先设定的是需不需要去打勾。
不像其他的框架效应是把原因追寻到系统一,这个器官捐赠效应最好的解释方法是系统二的懒惰。人们在决定了要怎么做后,他们会去勾选格子,但是假如他们还没有准备好去回答这个问题,他们会去想,那我要不要勾这个格子。我想像一个器官捐赠卡,人们需要在他们要做决定的格子空间解决一个数学问题。一个格子印的问题是2+2=?另一个格子印的问题是13×37=?这个捐器官的比例一定会受到影响。
当我们看到形成问题的方式与答案有关系后,一个政策问题就浮现出来了:哪一个形成问题的方式比较好?在这里,这个答案是很直接的,假如你认为捐赠器官对社会是件好事,你就不会在得到几乎100%的捐赠格式和只有4%的捐赠格式中间保持中立。
如同我们在本书中一再看到的,重要的选择是控制在一个完全无关紧要的情境特质上,这真是很令人发窘──原来不是我们希望去做出重要的决定。也不是我们经验到我们的心智如何运作,认知错觉的证据已不容否认。
你可以把它看成反对理性代理人理论的证据,这个理论顾名思义就是说某些事件是不可能的──假如这个理论是对的,它就不可能发生,当我们观察到一个不可能的事件时,这个理论就被推翻了。一个理论可以在被决定性的证据反证很多年以后,仍然存在。这个理性代理人的模式就是在我们所看到这么多证据以及其他更多的证据之后,仍然存在,屹立不摇。
器官捐赠的例子显示,人类理性在真实世界可以有很大的效应。相信理性代理人理论的人和不相信理性代理人理论的人最大的差异在于,相信者就是认为框架效应不存在,如何描述一个选择不会对偏好有任何影响。他们连去调查一下这个问题都没有兴趣,所以我们的决策只有劣等的结果 (inferior outcomes)。
对理性怀疑的人并不令人惊异,他们是受过训练,对无关紧要的因素能决定偏好这个能量很敏感,我希望读者在读完本书后,能习得这个敏感度。
说到框架和真实性
「假如他们能把这个结果放进他们保留了多少钱,而不是他们损失了多少钱的框架中来看的话,他们会好过很多。」
「让我们把这个问题用改变参考点重新设定一次,想像我们并没有拥有它,我们现在认为它应该值多少钱?」
「把这个损失放进你『一般性收入』的心智帐户中,你会觉得好过一点。」
「假如你不要被列在他们的邮寄单上的话,你要去勾选那个格子。假如你要去勾选才会列在他们的邮寄名单上的话,这个表单会短很多。」
第五部 两个自我
35 两个自我
「效用」(utility) 这个名词在它长久的历史中,有两个不同的意义,源自它长久的历史。边沁 (Jeremy Bentham) 在他的《道德和立法原则概论》(Introduction to the Principles of Morals and Legislation) 一书中开宗明义的一句名言就是「大自然把人类放在两个统御他的主人下面,痛苦和欢乐。它们指出我们应该怎么做,以及决定我们将怎么做。」在该书注脚中,边沁为他用「效用」这个字来表达这些经验而道歉,他说他找不到更好的字来替代它。为了要区分边沁对这个名词的解释,我用「经验效用」(experienced utility) 来称呼它。
在过去的一百年里,经济学家用这个字来代表别的东西,当经济学家和决策理论家在用这个名词时,它是「想要能力」(wantability) 的意思,我把它叫做「决策效用」(decision utility)。例如,预期效用理论就是全部在讲应该用在决策效用上的理性规则;它与快乐的经验毫无关系。当然,这两个效用的意义也有一致的时候,假如人们想要他们会喜爱的东西,以及喜爱他们为自己选择的东西──而这个一致的假设是内隐在一般人认为经济代理人是理性的概念中。理性的代理人被预期知道他们现在和未来的偏好,并被假设能做出达到自己最大利益的决策。
经验效用
我对经验效用和决策效用两者差异的兴趣可以回溯到很早以前,当特维斯基和我还在研究展望理论时,我设计了一个难题:想像一个人每天都要打一针很痛的针,痛的程度每天都一样,并不会因为打久就习惯了,每天还是一样的痛。你觉得人们会把同样的价值附在减少的针数上,从20针减少到18针会跟从6针减少到4针的感觉一样吗?如果不一样,有合理的原因吗?
我没有搜集资料,因为这结果就是个证据。你可以自己来试试看,你愿意付比较多的钱来使注射数减少三分之一(从6到4)吗?至少比让注射针数减少十分之一(从20到18)要付的钱来得多。这个决策的效用在第一个情况(从6到4)比第二个情况(从20到18)高,每一个人在第一个情况都愿意付比第二个情况更多的钱。但是这个差异是没有道理的,假如痛的程度每天都一样,那有什么理由要付多一点钱从6针减成4针,它跟从20针减成18针都是差2针,为什么这两种情况的效用会有差异?只是因为原本要打6针和原本要打20针有差异吗?用我们今天的话来说,这就是经验效用,它可以用注射的数量来测量。至少在一些例子中,经验效用是一个可以用来评量决策的门槛。一个决策的制定者付不同的价钱去达到同样的经验效用(或是免除同样的损失)是犯了个大错,你可能觉得这个观察是很明显的,但是在决策理论中,唯一判断这个决策是否错误是在它与其他偏好的不一致上,特维斯基跟我讨论过这个问题,但是我们没有深入去研究,许多年以后,我又回到这个问题上。
经验和记忆
你怎么去测量一个经验效用?我们怎么去回答「海伦在医疗过程中受了多少苦?」或是「她在沙滩上的20分钟享受了多少的快乐?」在19世纪的时候,英国经济学家艾吉沃斯 (Francis Edgeworth) 曾经想过这个问题,并提出「快乐计」(hedonimeter)。这是一个想像的仪器,跟气象局用来测天气的差不多,可以用来测量一个人在某一时段所感受到的快乐和痛苦。
经验效用就像每天的温度或气压计一样,会不同,你可以把它画成一个时间的函数曲线图。海伦在看病时,或度假时,所感受到的痛苦和快乐可以用曲线图画出来,曲线下面的面积就是经验效用。时间在艾吉沃斯的概念上扮演了重要的角色。假如海伦在沙滩上停留了40分钟,而不是20分钟,她的快乐程度一样的话,那么全部经验效用就增加了一倍,就像增加注射量一倍使注射的过程双倍痛,这是艾吉沃斯的理论,我们现在完全了解他理论背后的条件了。
图15是两个病人在做大肠镜时的痛苦经验,资料来自瑞德迈尔 (Don Redelmeier) 和我一起做的研究。瑞德迈尔是多伦多大学的医生也是研究员,他是在1990年代初期做这个实验。现在医院在做大肠镜的时候,都有打麻药及服用失忆的药。不过在我们搜集这些资料时,这些药物的使用还没有这么普遍。我们每60秒问病人一次,他现在痛的程度是如何,这曲线图的纵轴中,0是不痛,10是不能忍受的痛。你可以看到,每一个人对痛的经验很不同,对A病人是8分钟,对B病人是24分钟(疼痛程度最后回到0的位置,是在大肠镜的检查完成了以后)。我们一共搜集了154名病人的资料,最短的是4分钟,最长的是69分钟。
图15
下面,请看一个容易的问题:假设两个病人都用相似的疼痛量表,哪一个病人受的苦比较多?没有异议,大家都同意B病人受的苦多,B病人受的苦在任何一个疼痛程度上都没有比A病人少,他曲线下的面积比A大了很多。当然,主要的因素是检查时间长了很多,我把每一瞬间的疼痛报告叫做「快乐计总和」(hedonimeter totals)。
当检查完了以后,我请病人评估「痛的总和」──他们在检查时所有经验的总和。我们问问题的方式是故意要他们去想全部的痛,把他们报告的痛综合起来。很奇怪的是,病人都没有这样做,统计的分析显示两个发现,正好说明了我们在其他实验上也有观察到的一个型态。
- 「顶峰-结尾」规则:整体内省的评分排序可以从最痛时段和结尾时的平均数得之。
- 长度的忽略:检查过程的长短对整个痛的分数没有影响。
你现在可以把这个规则用到A病人和B病人身上。最痛是10分量表中的8,对两个病人来说是一样的,但是在检查结束前最后的评分,A病人是7,B病人是1。A病人在「顶峰-结尾」的平均是7.5,B病人4.5。如我们预期的,A病人对大肠镜检查的记忆就是比B病人坏了很多。对A病人来说,很不幸,他的检查过程在结束时也不好,留给他一个不愉快的记忆。
测量经验效用的两个工具──快乐计分数和内省评估──是系统化的不同。快乐计的分数是个人报告他在每一个时段的感觉,我们把这些判断叫做「过程长度-加权」(duration weighted),因为计算「曲线下的面积」是每一个时段都给予同样的加权,两分钟的第九级疼痛是一分钟的两倍。不过,这个实验和其他实验都发现内省评估对时间的长短不敏感,它把两个单独的时段──顶峰和结尾──看得比别的时段重。那么现在,哪一个比较重要?医生该怎么办?这个选择对医疗实务上有关系,我们注意到:
- 假如目标是减轻病人痛苦的记忆,那么减低顶峰痛苦的强度就比减少手术长度来得重要。同样的理由,假如要病人保留比较好的记忆,那么慢慢地减轻痛比马上减轻好,这样在手术结束时,痛已经很轻微的了。
- 假如目标是减少实际感受到的痛,那么快速地完成检查可能就是我们要追求的,即使快速完成会增加顶峰痛的强度,给病人留下很痛苦的记忆。
你觉得哪一个目标比较好?我并没有做调查,但是我的感觉是大部分的人偏好减轻痛苦的记忆,我把这个两难看成两个自我的利益冲突(因为它不能跟两个熟悉的系统相呼应),经验自我是回答:「现在痛吗」的自我,记忆自我是回答:「整个来说,究竟怎么样」的自我。记忆是我成为我最主要的一个机制,所以是记忆自我比较重要。
有一次我在演讲完区分记忆和经验的困难(记忆来自经验),有一位观众分享了一个他的经验,他说他在听一首很长的交响乐,快到尾声时,磁片有刮痕,使声音尖锐刺耳,他说这个很糟的结尾「破坏了整个经验」,但是这个经验并没有被破坏,只有关于这个经验的记忆被破坏了而已。这个经验自我有一个经验是几乎都是好的,而最后不好的结尾并不能破坏它,因为它已经发生过了,这个人因为结尾非常差,把整个过程都打不及格的分数,但是这个分数完全忽略了前面40分钟的好,难道这40分钟的实际经验都没有算分吗?
混淆的经验跟关于这经验的记忆,正是认知错觉的例子──「替代」使我们认为过去的经验可以被破坏。经验自我无法自己表达,记忆自我有时是错的,但是它是计分的人,而且掌控我们从生活中学到什么东西,它是做决定的人。我们从过去所学就是要使未来的记忆达到最高品质,它不见得是我们未来的经验。这就是记忆自我不讲理的地方。
哪一个自我可以依赖?
为了要呈现记忆自我做决定的权力,我的同事和我设计了一个轻微痛苦的实验,我叫它「冷-手」(cold-hand)情境,它技术上叫冷压 (cold-pressor)。受试者要把他的手浸到冰水中,直到实验者说可以拿起来,这时实验者会递给他一条温热的毛巾,受试者用他没有泡在冰水中、可自由移动的手去控制键盘上的一个箭头,来提供他持续痛苦的纪录,这是经验自我一个直接的沟通。我们选的温度是会引起痛苦,但是没有到不可忍受的程度。当然,他们随时可以把手从水盆中拿开,但是没有人这样做。
每一个受试者都忍受两个「冷-手」的版本。
短的版本是把手放在14℃的水中60秒,14℃是会痛,但没有到不可忍受的程度。60秒到时,实验者告诉受试者可以把他的手拿起来了,同时给他一条温热的毛巾。
长的版本是90秒,前面60秒跟短的版本一模一样。在60秒结束时,实验者什么都没说。他打开水龙头,让一些温水进入水盆中,在后面的30秒,水盆的温度升高了一度左右,刚刚好让大部分的受试者侦察到痛的强度有一点减轻。
受试者是被告知他们要去做三次「冷-手」尝试,但事实上,他们只有做长的和短的版本而已,每一次是不同的手。这两个版本中间隔7分钟,在第二次尝试之后7分钟,他们被告知在第三次尝试中,他们可以选要重复左手,还是右手的实验,因为两只手浸在水中的时间长短不同,当然,一半受试者的左手做短的60秒,另一半受试者的右手做短的60秒。一半受试者先做短的实验,另一半受试者先做长的实验,这是一个仔细控制的实验。
这个实验是要去创造一个冲突的情境,将经验自我和记忆自我的利益对立起来,当然,这样就对立了经验效用与决策效用。从经验自我角度来看,长的版本显然是最糟的,我们预期记忆自我有不同的意见,「顶峰-结尾」规则预测短版本记忆比长版本差,「长度的忽略」预测90秒和60秒疼痛的差异会被忽略。我们预测受试者会比较偏好长版本的记忆,会选择去重复它。果然如此。80%的受试者报告,在长版的最后一个阶段痛减轻了,所以他们愿意重复长版的「冷-手」。这决定表示他们愿意忍受多30秒不必要的痛去做第三次尝试。
那些愿意去做长版本的受试者并不是有自虐狂,也不是故意使自己去接受最糟的经验,他们只是犯了一个错。假如我们问他们:你偏好90秒的浸手还是只有前面60秒那个部分?他们绝对都会选短的版本。我们并没有使用这些字眼问他们,他们只是很自然地去选择重复他们有比较不厌恶记忆的那个版本。受试者非常清楚知道哪一个比较长(我们有问他们),但是他们没有使用这个知识。他们的决定是用一个简单的直觉选择所决定的:选你最喜欢的,或最不讨厌的。记忆的规则决定他们有多不喜欢这两个选项,这又决定了他们的选择。这个「冷-手」实验,像我那个注射的难题,显现出决策效用和经验效用上的差别。
我们在这个实验上观察到的偏好是我们在前面讲过的「少就是多效应」的另一个例子,一个是奚恺元的买盘子研究,加一些盘子到一套24个盘子上,反而降低了整个的价值,因为有些加上去的盘子是破的。另一个是琳达,她被判断比较像女性主义的银行行员而非只是银行行员。这些相似性并非偶然。系统一是三个情境背后的原因:系统一代表的是平均、常模,和典型,而不是总和。每一个「冷-手」的事件是一套记忆,记忆自我把它当作那一瞬间的原型储存起来,这会导致冲突。对一个客观的观察者,用经验自我的报告来评估这个事件,他在意的就是曲线下的面积,那代表了综合不同时间的所有痛,它的本质是总和。记忆自我所保持的记忆,相反的,是那一刹那的表征,强烈受到顶峰和结尾的影响。
当然,演化使动物的记忆完整地储存,对一只松鼠来说,「知道」牠一共储存了多少食物总量是很重要的事,而坚果的平均大小的表征并不是一个好的替代。然而,一段时间中的快乐和痛苦的总和也许对生物不那么重要,我们知道,老鼠对快乐和痛苦都有「长度的忽略」。在一个实验中,灯光一出现,电击就产生,所以老鼠很快就学会害怕光,牠们恐惧的强度可以用几个生理反应的指标来测量。这个实验主要是发现电击长度的效应(没有或是只有一点)──老鼠在乎的是痛苦刺激的强度。
另一个经典研究显示,用电刺激老鼠大脑的某一个部位会产生一个很快乐的感觉,这强度强到老鼠愿意不吃不喝一直去按杆,使电流去刺激牠的大脑,带给牠快感,这只老鼠最后会饿死,因为牠没有停下来吃东西。快乐的电刺激可以有不同的强度和长度。这里,我们再一次看到,只有强度有关系,到某一个程度,再增加电刺激的长度不会增加牠的快感。这个规则同时也规范了人类的记忆自我,它是有很长的演化历史的。
生物vs.理性
多年前,困扰我许久的注射难题中最有用的一个想法是:同样痛的注射的经验效用可以用计算打针的次数来测量。假如所有测量的结果都一样的厌恶,那么打20针会比打10针厌恶两倍,从20针减到18针和从6针减到4针有着同样的价值。假如决策效用没有对应到经验效用,那么这个决策一定有不对劲的地方。这同样的逻辑也可应用到「冷-手」实验:90秒的痛比60秒的痛更糟,假如人们愿意去选择长的版本,这个决策一定有错的地方。在我早期的难题中,这个决策和经验的差距源自减少的敏感度:18针和20针的差异比较不吸引人,比较不值钱;6针减到4针,再痛苦一下就结束,比较有价值。在「冷-手」实验中,错误反映出两个记忆的原则:长度的忽略和「顶峰-结尾」规则。它们的机制不同,但结果相同,是一个没有跟正确经验「合拍」(attuned) 的决策。
没有产生最好可能的经验的决策,和一个错误预测未来感觉的决策,这两者对认同理性选择的人来说,都是坏消息。「冷手」实验显示,我们不能完全相信我们的偏好可以反映我们的利益,即使它们是基于个人经验,甚至即使那个经验的记忆是在刚刚前15分钟记下的,你都不能完全相信我们的偏好!偏好和决策是被记忆塑造的,而记忆可能出错。这个证据对「人类有一致性的偏好,而且知道如何去达到最大利益」是一个严重的挑战,而这些正是理性代理人模式的基石。我们的心智天生有不一致性,我们对痛苦和快乐的经验长度有很强的偏好,我们要痛苦短暂,快乐长久。但是我们的记忆──这个系统一的功能,是演化来去描绘一个痛苦或快乐最强烈的刹那(顶峰),以及当这个事件终止时的感觉。我们的这种会忽略长度的记忆,并不能帮助我们对长久快乐和短暂痛苦的偏好。
说到两个自我
「你完全是从记忆自我去想你失败的婚姻。离婚就像一首有刮痕的交响乐,结束得不好不代表它全部都不好。」
「这是一个不好的长度忽略例子,你给好的和坏的经验同样的加权,虽然好的部分比其他部分长了10倍。」
36 生命像个故事
早期在我还在研究经验的测量时,我去看了维尔第 (Verdi) 的歌剧「茶花女」(La Traviata),这是个很有名的歌剧,不但音乐美,故事也很感人,讲一个年轻的贵族爱上一个风尘女郎的爱情故事。年轻人的父亲去找这位小姐,说服她为了保护这个家庭的荣誉及他妹妹可能的婚姻,要她放弃他。在这幕超级自我牺牲的剧中,茶花女假装拒绝她所爱的人,不久她就得了肺病,在最后一幕中,茶花女快死了,旁边有几位朋友。她的爱人知道后,赶到巴黎来看她,听到这个消息,她被希望和快乐所鼓舞,像变了个人似的,但是她很快就香消玉殒了。
不管你看过这个歌剧多少次,你还是为当时的紧张和害怕所抓住:年轻的爱人会及时赶到吗?你有那种感觉──他得在她死以前,马上赶去跟她在一起,这是很重要的。他赶上了,当然,最后好听得不得了的爱情二重唱才能登场,唱了十分钟后,茶花女死了。
在看完歌剧回家的路上,我在想,为什么我们那么在乎最后十分钟的戏?我马上了解,我并不在乎茶花女生活的全部,假如你告诉我,她只活了27岁而不是我以为的28岁,这个她失去了一年快乐的生活并不会感动我,但是如果她失去了最后十分钟,就大有关系了。假如我知道他们其实还有最后一个礼拜在一起,而不是十分钟,我所感到爱人重聚的情绪也不会改变。假如她的爱人来得太迟,没有见到一面,那么「茶花女」会是一个完全不同的故事。这故事会是关于显著的事件和无法忘怀的时段,但不会是时间的消逝。时间长度的忽略在一个故事中是正常的,结局常界定了它的性格,这个同样的核心特质出现在说故事的规则中,也在大肠镜、度假和电影的记忆里。这是记忆自我工作的方式:它编一个故事,保留它作未来的参考。
不只是「茶花女」使我们想到生命是一个故事,希望它能有好的结局。当我们听到一个与女儿多年不讲话、不来往的女人过世时,我们想要知道母亲死亡之前母女有无和好,我们不是只在乎女儿的感觉,我们说的是母亲的故事,我们希望她的生活会圆满。我们在乎一个人通常是以关心她们故事品质的方式出现,而不是关心她们感觉的品质。我们甚至可以为已经死去的人他们故事的改变而深深感触。我们为到死都深信妻子爱他的人感到怜悯,当我们听到她老早就有很多情人,跟她先生在一起只是为了他的钱,我们会很同情这个先生,虽然他很快乐地过了一生。我们会为一个科学家感到羞耻屈辱,她做出了重要的发现,却在死后被证实这发现是假的,虽然她并没有经验到这个羞辱。当然,最重要的是,我们在乎我们自己生活的故事,非常希望它是个好故事,里面有个好英雄。
心理学家迪纳 (Ed Diener) 和他的学生想知道是否时间长度的忽略和「顶峰-结尾」规则会掌控整个生命的评估。他们用一个虚构的人物,珍──一个从来没有结婚,没有小孩,在一场车祸中突然死去的故事给受试者看。在一个版本中,她这一生都过得非常快乐(30年或60年),喜欢她的工作,去度假,与她的朋友在一起,有她的嗜好。另一个版本是增加了五年的寿命,死时是35岁或65岁,这额外的五年被描述为过得不错,但不及之前那么好。读完了珍的故事后,每一个学生要回答两个问题:「就她整个生命来说,你认为她的生活有多么令人羡慕」以及「你认为珍这一生经验到多少的快乐或不快乐?」。
这个结果提供了一个非常清楚的证据,时间长度是可以被忽略的。在受试者组间设计(不同的受试者看不同的版本),增加生命的长度一倍并没有增加她生命的可羡慕性,也不影响对她总和的快乐经验的判断。显然的,她的生命是切一片原型下来代表,而不是看一序列的时间切片。因此,她的全部快乐总和 (total happiness) 是她生命中某一段典型生活的快乐,并不是她一生快乐的总和。
迪纳和他的学生也发现少就是多的效应,很强烈的显示平均(原型)可以取代总和。增加五个有一点快乐的年头,对一个很快乐的人生来说,反而使整个生命的快乐总和下降了。
在我的催促下,他们同时也搜集了受试者组内设计资料关于多增加五年寿命生活的效应,每个受试者要做立即判断决定「有多羡慕她的生活」和「你认为她这一生经验到多少的快乐或不快乐」。虽然我对判断错误有多年的经验,我还是不能相信一个理性的人会说增加五年稍微快乐一点的时光,会使生命更糟。我错了,几乎全体都直觉认为这五年使生活变得更糟。
这判断的型态这么奇怪,迪纳和他的学生一开始认为这是参与实验的年轻人的蠢事,然而当学生的父母亲和年纪比较大的朋友来做同样实验时,结果的型态并没有改变。在直觉评估整个生活以及很短的生活片段,顶峰和结尾有关系,但是和时间的长度没有关系。
在提到时间长度没有效应时,很多人都会提出抗议,生产时的阵痛,24个小时绝对比6小时糟,6天待在度假胜地绝对比3天待在同样地方好。在这些情况,时间长度是有关系的,但是这只是结束时的品质跟这个事件长度的改变。一个妈妈在24小时的阵痛后一定比6个小时阵痛的母亲更筋疲力竭,你忘了度假6天的人一定比休息了3天的人更有活力。当我们直觉的评估这些事件时,真正有关系的是目前这个经验渐进地衰败或改进,以及这个人在结尾时的感觉。
失忆的度假
请考虑一下度假的选择,你会比较喜欢去年住过的海滩休息一周,还是你喜欢充实你旅游的记忆?为了这两种需求,因而发展出两个不同的产业。渡假村提供恢复元气的放松;旅行团则帮大家制造回忆及累积生命故事。观光客发狂似地照相,表示储存记忆是旅游的重要目标,到此一游一定要拍照留念,它塑造了度假的计划和度假的经验。拍照者并没有把这个景象当作当下的品味欣赏,而是照起来作为未来的记忆。相片对记忆自我可能很有用──虽然我们很少把它拿出来看,或甚至从来没有拿出来看──但是照相不一定是让观光客的经验自我去享受景色的最好方式。
在许多的情况,我们评估观光客的度假是以他能说出来的故事和他所储存的记忆来判定。「难忘」(memorable) 这个字常常用来形容度假的高潮,明确地指出经验的目的。在其他的情境──爱情进入心中──那一刹那是永远不会忘记的,虽然不见得一定正确,但爱改变了那一瞬间的意义。一个自我意识难忘的经验会有特别的加权,在记忆中留下特定的地位。
迪纳和他的同事提供证据,选择度假的是记忆自我。他们请学生春假中每天写日记,而且纪录每一天经验的评估。学生也提供了春假整体的评估,在春假结束时交给实验者,他们要表明以后想不想再重复这次的度假经验。统计的分析显示,以后要不要再去度假完全取决于最后的评估──即使评估分数并无法正确地代表日记中所描述经验的品质。就像「冷-手」实验一样,人们是用记忆在选择。
你可以做一个你下一个度假的思考实验,这会使你观察到你对自身经验自我的态度。
在假期结束时,所有的相片和录影带都会被销毁,此外,你会喝下一罐药水,将你的度假记忆洗掉,请问上述会如何影响你的度假计划?相较于一般难忘的度假,你愿意付多少钱去拥有一个上述的度假?
虽然我没有正式去研究对这个场景的反应,我从跟人们讨论中得到的印象是,消除记忆大大减少了经验的价值。在一些情境中,人们对待自己就像他们对待失忆症病人似的,选择去得到最大的快乐就是回到过去他曾经快乐过的地方。然而,也有人说,他们可以不必去,表示他们在乎的只是记忆自我,不在乎他们失忆的经验自我。很多人说他们不会让自己或失忆者去爬山或健走,因为这些经验在当下都很痛苦,只能期望达成目标的苦与乐都将令人怀念这一点来找到价值。
另一个思考的实验是想像你要做一个很痛苦的手术,手术过程中你将保持清醒,你被告知,你会痛苦地尖叫并且哀求医生停止手术。医生答应给你一个会引发失忆症的药,把你当时所有的记忆完全洗掉。你对这个手术感觉是什么?在这里,我非正式的观察是,大部分人对他们经验自我的痛苦漠不关心,有的说他们根本不在乎。有人跟我的感觉一样,那就是我对受苦的自我感到同情、怜悯,但不会比对一个陌生人的痛苦更为怜悯。这看起来很奇怪,但是我是我记忆自我的我,那个替我生活的经验自我,像个陌生人似的,与我没关系。
说到生活是个故事
「他拚命地要保护生命故事的完整性,这个完整性受到最近发生事件的危害。」
「你似乎把整个假期花在建构记忆上,或许你该放下照相机,享受当下,即使这当下并不是那么难以忘怀。」
「她是阿兹海默症的患者,她不再记得她的人生了,但是她的经验自我还是对美与温柔敏感。」
37 经验到的幸福
大约在十五年前,我对研究幸福感兴趣时,我很快发现,几乎所有关于幸福的知识是来自一份用来测量快乐的调查问卷。这问卷的问题很明显的是问你的记忆自我,由它来思考你的生活,几百万人都做了类似下面问题的问卷:
把所有的事综合考量,你对你最近几天的生活有多满意?
我是从大肠镜和「冷──手」实验走到幸福这个题目,所以我很自然地怀疑对生活的整体满意度可否做为幸福的有效度测量。就像记忆自我在我的实验中不是好的证人,我聚焦到经验自我的幸福感上。我问:假如海伦花大部分的时间在她喜欢做的事情上,很少时间在她想要逃避的事情上,以及很少时间在她不在乎的中性事情上──这一点很重要,因为生命很短。那么你可以说,「海伦在三月时很快乐。」
我们有很多愿意继续而不愿意停止的经验,包括心智和身体的快乐,一个例子就是契克生米哈利所谓的「心流」──就是一些艺术家在他们创作当下所感受到的心智状态,也是一般人全心投入一个电影、一本书,或一个字谜时,所感觉到的忘我状态:在这情况时,任何中断、干扰是不受欢迎的。我记得在我的快乐童年,每一次我妈妈把我从玩具旁拉开,带我去公园玩时我会大哭,她要把我从秋千和溜滑梯旁拉开带我回家时,我也会大哭。对任何中断的抗议就是我所谓很快乐、很投入的一个表记,对玩具如此,对秋千也是如此。
我提出一个测量海伦快乐的客观方法,就像我们测量两个大肠镜病人经验的方法一样。我们评估她生命中连续时段的幸福经验。在这里,我用了艾吉沃斯一百年前快乐计的方法。在我一开始做这个研究时,我是想把海伦的记忆自我排除,因为它对经验自我的实际的幸福感觉,是个易犯错的证人。后来我想这样做是太极端了,事后证明它的确是太极端了,不过这是个好的开始。
经验到的幸福
我组织了一个包括三个不同研究领域的心理学家、一个经济学家的「梦想团队」,我们一起去发展一个测量经验自我的幸福指标的方法。很不幸的是,一直记录幸福经验是不可能的事──当你一直不停地报告你的经验时,你就没有办法正常过日子了。最接近的方法就是经验取样,这是契克生米哈利所发展出来的方式,从它最早使用到现在,科技已进步了很多。现在可以在个人的手机中设定,在随机的时段震动或哔声来做经验的取样。手机会出现一个短的问题选项:你现在在做什么?跟谁在一起?受试者有一个量表来报告她当下感觉的强度:快乐、紧张、愤怒、担忧、投入、身体疼痛等等。
经验的取样成本很高而且烦琐(虽然比大多数人一开始以为的容易很多:回答问题只要花很少的时间)。我们必须发展出一个比较实际的方法,所以我们后来做了一个「重新建构日子的方法」(Day Reconstruction Method, DRM)。我们希望它能搜集到经验取样的结果,提供人们花时间过日子更多的讯息。受试者(在早期的研究中都是女性)要参加一个两小时的课程,我们先请她把昨天重新过一次,把它切割成很多场景,像拍电影时那样。然后她们要回答很多有关她们生活事件的问题,这是根据经验取样方法编写出来的。她们从一个单子上挑选一些她们最常做的活动,标出她们最注意的那个,也要列出跟她们在一起的人的名单,从06的量表中标出跟这些人在一起的感觉强度(0=没感觉,6=强烈感觉)。我们的方法是根据一个证据:人们可以很仔细地提取过去的情境,也可以重新再经历一次在那个情境的感觉,甚至经验他们早先情绪的生理征状。
我们假设受试者很正确地重现她在那个事件中特定时段的感觉,好几个经验取样的比较确定了DRM的效度。因为受试者同时也报告这个事件的起点和终点,我们就能够去计算出一整天清醒时间,时间长度-加权对她们情绪的测量,长的事件比短的事件在计分上加权多。我们的问卷同时也包括测量生活的满意度,这是对记忆自我的满意度。我们用DRM来研究幸福情绪和满意的决定因素,我们的受试者包括美国、法国和丹麦几千名妇女。
当下的经验或一个事件是不容易用单一快乐价值来表达的,它里面有许多正向的情绪,包括爱、快乐、投入、希望、有趣等等。负向的情绪也有许多种,包括愤怒、羞耻、沮丧,和寂寞。虽然正向和负向情绪同时存在,你还是可以把生活的某个时段划分为正向或负向。我们可以用比较正向和负向形容词的评分来知道是不是不愉快的事件,假如一个负向感觉比所有正向感觉给的分数都高,我们把这个事件叫做不愉快事件。我们发现美国妇女花19%左右的时间在不愉快的状态,比法国妇女高 (16%),也比丹麦妇女高 (14%)。
我们把一个人花在不愉快状态的百分比时间叫做U指数 (U-index),例如,在清醒的16小时中,有4小时在不愉快的状态,她的U指数就是25%。U指数的好处是它不是基于评分,而是基于客观的时间测量。假如一个母群U指数从20%降到18%,你就可以推论这个母群花在不愉快情绪或痛苦的时间减少了十分之一。
一个惊人的观察就是痛苦情绪的分布是不平等的。一半的受试者报告她们一整天没有什么不愉快的事。但是也有很多的人一整天都经验到情绪的不快,它看起来是有一小部分人承担了最多的痛苦,不管是身体上的还是精神上的,一个不快乐的心情,或是她们生活中不幸的遭遇和个人的悲剧。
我们也可用U指数来计算活动。例如,我们可以测量人们在上下班,工作时,或跟他们的父母、配偶和孩子沟通时,花在负面情绪上的时间比例。对一千名住在美国中西部城市的妇女来说,早上通勤时的U指数是29%,工作时是27%,照顾孩子时是24%,做家事时是18%,交际时是12%,看电视时也是12%,做爱时是5%。U指数在周间比周末时高6%,最可能的原因是人们在周末花比较少时间去做他们不喜欢做的事,也不会有跟工作有关的紧张和压力。最令人惊讶的是,人们与孩子相处的情绪经验。美国妇女跟孩子在一起的情绪经验,比做家事还要无趣一点。在这里我们发现法国妇女和美国妇女少数几个相反的项目之一:法国妇女花比较少的时间跟她们的孩子在一起,但是享受的感觉比较多,或许因为她们的幼儿照顾机构比较多,比较不需要花下午的时间开车送孩子去参加各种活动。
人在任何一个时间的心情是决定在她的脾气和整体的快乐感。但是情绪的幸福同时也依每天和每周有很大的起伏。某个时段的心情主要是看当时的情境,例如,上班的心情是不太会受到一般工作满意度的影响,包括福利条件和职位。最重要的是情境因素,如跟同事交际应酬的机会、暴露在很吵的噪音底下、时间的压力(这是负面情绪很重要的来源),以及上司立即的压力(在我们的第一个研究中,它是唯一比孤独一个人更糟的事)。注意力是关键。我们的情绪状态有很大一部分是取决于我们在注意什么,我们一般是聚焦在目前在做的事情上,以及直接的周边环境。不过也有例外,当主观经验的品质是由一直出现的思想所控制,而不是由当时发生的事件时。例如坠入爱河时,即使碰到塞车你也可能觉得很快乐;悲伤时,即使在看喜剧,你也觉得很沮丧。不过,在正常情况下,我们从在那当下所发生的事得到我们的快乐和痛苦,例如,要从吃得到快乐,你必须注意到你正在吃。我们发现法国和美国的妇女花同样的时间在吃东西上,但是法国妇女对吃的注意力是美国人的两倍,美国人常把吃和别的活动综合在一起,所以她们对吃的快乐就被稀释了。
这些观察可以应用到个人和社会,要把每天的时间花在哪里,这是人们可以有一些控制的。很少人能用意志力使他们有阳光般的个性,但是有些人可以安排他们的生活,使自己不必花那么多时间在通勤上,所省下来的时间可以做他们喜欢做的事,跟他们喜欢的人在一起。跟不同活动联结在一起的感觉,显示另一个增进经验的方法,那就是把被动的休闲(如看电视),转换成主动的娱乐(如交朋友、运动)。从社会的角度来看,改进工人交通的方式、增加职业妇女托婴的设施、增加老人社交的机会,可能可以减少社会的U指数──即使减少1%也是很大的成就,它等于免去百万个小时的受苦。把对时间的用途和经验的幸福的全国性调查结合在一起时,它可以带给社会政策很多的讯息。我们团队中的经济学家克鲁格 (Alan Krueger) 就是致力于介绍这个方式的元素进入国家统计资料库的第一人。
测量经验的幸福现在已经普遍地应用在美国、加拿大,和欧洲的全国性调查中,盖洛普世界调查 (Gallup World Poll) 也延伸这些测量到美国好几百万人以及150多个国家。这个调查激发受试者前一天情绪经验的报告,不过不及DRM法那么详细。这个巨大的样本使我们可以做很精细的分析,这些分析肯定了情境因素、身体健康和社会接触在经验幸福上的重要性。不令人惊讶的,头痛会使人心情不好。预测一个人今天心情的第二好的指标,就是他有没有跟亲友接触。快乐是花时间与你爱的人和爱你的人在一起,这句话其实一点都没有夸大。
盖洛普的资料使我们可以做两个层面的幸福比较:
- 人们经验的幸福是他们过他们想要的生活。
- 幸福是人们在评估自己生活时所下的判断。
盖洛普的生活评估是用「康崔尔自我锚点努力量表」(Cantril Self-Anchoring Striving Scale) 的问卷来测量的。
请想像一个楼梯,它有从0到10个阶梯,楼梯的最上层代表着你可能过的最好生活,最底下的代表着最坏的生活,你认为你现在是站在第几层楼梯上?
有些生活的层面比生活的经验对评估一个人的生活更有影响力,教育就是一个例子。高教育程度常跟生活的高满意度联结在一起,但是没有跟高幸福感的经验连在一起。的确,至少在美国,更高的教育通常有更多的压力。从另一方面来说,身体不健康对经验幸福的厌恶效应会比生活的评估大很多。跟孩子一起生活也对每一天的感觉带来很大的伤害──父母常常报告压力和愤怒,但是它对生活的评估厌恶效应却很小;信教的受试者也对正向情意和压力减低的宗教偏好大于生活的评估。然而,很惊讶的是,宗教并不会减轻人们对沮丧和担忧的感觉。
有一个研究是分析盖洛普-希斯威幸福指数 (Gallup-Healthways Well-Being Index)。这个每天调查1,000名美国人所搜集的45万人以上的资料,为幸福研究中最常被问的一个问题提供了确定的答案,这个问题是:钱可以买得到幸福吗?它的结论是,贫穷使一个人愁眉不展,财富可强化一个人对生活的满意度,但是不能增加经验的幸福。
一般来说,极度的贫穷会放大生活中其他不幸的经验效应,尤其是疾病。对非常穷的人来说,生病的打击比生活过得去的人糟很多倍。对收入在曲线前三分之二以上的人来说,头痛会让他们感觉悲哀和忧虑的人数从19%升到38%;对曲线最穷的十分之一人口来说,同样是头痛,感觉难过的人数则从38%升到70%,基准线愈高,增加的幅度也愈多。非常穷的人和其他人的差异也在离婚和寂寞上看到效应。此外,周末对经验幸福的好处,对非常穷的人来说也比大部分人小。
在家庭收入75,000美元的高生活指数区,幸福经验的满足不再往上升(低生活指数区的收入应该少一点)。超过这个程度的幸福经验和家庭收入的联结是零。这很令人惊讶,因为高收入无疑地能够买更多的欢乐,包括去有趣的地方渡假、买歌剧的票,以及增进生活环境等等。为什么增加这些娱乐不能增加所报告出来的情绪经验?一个可能的解释是,更高的收入是联结到享受生活中小快乐的能力减少了。有一些证据显示:暗示学生有关财富的念头会减低他们在吃巧克力糖时,脸上快乐的表情。
收入在经验到的幸福和生活满意度之间有明显的矛盾。更高的收入带来更高的生活满意度,远超过经验的正向效果所能达到的境界。关于幸福的一般结论和做大肠镜检查的实验结论一样清楚:人们对他们生活的评估和他们实际的体验可能是相关的,但是也有差别。如我以前所想的,生活满意度并不是幸福经验的瑕疵测量,它是一个完全不同的东西[1]。
说到经验到的幸福
「政策的目的应该是减少人类受苦,我们设定目标在减少社会的U指数。处理极度贫穷者的忧郁症应该是优先要做的事。」
「增加你的快乐的最简单方式,是去控制你对时间的使用,你能找到更多的时间去做你喜欢做的事吗?」
「在收入到达满意水准后,你可以买到更多的享乐经验,但是你会失去一些享受比较不那么贵的东西的能力。」
38 对生活的沉思
图16取自德国社会经济小组 (German Socio-Economic Panel) 成员克拉克 (Andrew Clark)、迪纳,和乔杰利 (Yannis Georgellis) 所分析的资料。这个长期调查计划每一年都去问同一个人他对自己生活的满意度。受访者同时也报告在过去的一年里,他生活上的重大改变。下面这个图就是人们在刚结婚时所报告的生活满意度。
这张图表每次都会引起听众紧张的笑声,这个紧张是很容易了解的:毕竟这些人决定去结婚是期待结婚会使他们更快乐,或是希望结婚会维持目前状态的快乐。吉尔博特和威尔生创造了一个很有用的名词,对很多人来说,决定去结婚是「感情预测」(affective forecasting) 的大错误。在结婚的那一天,新郎和新娘知道离婚率很高,对结婚的失望率更高,但是他们认为这个统计不适用在他们身上。
图16
图16令人惊愕的消息是生活满意度下降得那么陡,这个曲线一般是把它解释为适应的过程,新婚的快乐很快会因生活落入例行公式而消失。然而,另一个可能的解释是判断的捷径。当人们被问到他觉得他的生活过得怎么样时,这个「就整个来说,你对你生活有多满意」及「这些天来,你有多快乐」,并不像「你的电话号码是多少」那么容易回答,受访者怎么能够在几秒内讲出答案来?如果你把它想成这是另一个判断,这对你会有帮助。大多数的人不能很快地找到这些问题的答案,他们会很自动地把这问题用替代的方式使它变得很容易。这是系统一的工作,当我们用这个角度去看图16时,我们就看到不同的意义了。
许多简单问题的答案可以被替代去回答整体的生活评估。你记得前面谈过一个研究,刚回答过上一个月他有多少次约会的学生,报告他们「这些天来,你有多快乐」时,好像约会是他们生活中唯一重要的事实。在另一个著名的实验中,施华兹和他的同事请受试者到实验室中填写一个生活满意度的问卷。不过,在他们开始填之前,他请他们帮忙影印一张纸。一半的受试者在影印机上发现一毛钱,这钱是实验者放的,这一点点小幸运,就足以大幅提高了对生活整体满意度的评估。心情的捷径是一个回答生活满意度问题的方法。
这个约会的调查和机器上一毛钱的实验,显现出对整体幸福问题的回答是以管窥天。但是当然,你目前的心情不是在你被要求评估你的生活如何时,唯一进入心中的事情,你很可能想到最近发生的大事,或是未来将要发生的事,或是最近一直萦绕在你心头的事:你配偶的健康情形,你儿子交的损友,重要的成就或痛苦的失败。几个跟这个问题有关的事件会被想起来,还有很多不会被想到。即使它不被完全不相干的事情(如影印机上的一毛钱)所影响时,你对你自己生活的满意度必会因为马上可以进入你心中的小小例子而给它高分,它其实不是一个经过仔细思考后,你整个生活的答案。
刚刚新婚的人或即将结婚的人在被问到这个问题时,比较容易想到婚姻这件事,因为婚姻在美国几乎全都是自愿的,所有人想到自己的婚姻或即将开始的婚姻都会感到很快乐。注意力是个关键因素,图16可以解读成被问到他们的生活时,人们会想到他们最近或即将到来的婚事的可能性。这个想法的鲜明性一定会随着时间的流逝而减少,因为它的新鲜感会慢慢衰退。
图16显示一个不寻常的高生活满意度,从结婚后大约维持二到三年。然而,假如这个高峰是因为回答这问题的捷径,我们能够从中学到关于幸福或适应婚姻历程的讯息就很少了,我们无法从它来推论幸福感在几年内升高然后逐渐退潮的原因。即使在被问到生活的问题时,是快乐地想到婚姻的人,后来也不一定就很快乐。除非他们是一天中大部分的时间都想到自己快乐的婚姻,不然婚姻的幸福与否并不会直接影响他们整体的幸福。即使很幸运能够享受新婚快乐的夫妇,迟早也会从云端回到人间,他们幸福的经验也会依照他们当时的环境和活动而有所不同,就跟我们这些凡夫俗子一样。
在DRM研究中,结婚(或同居)的妇女跟单身的妇女在经验幸福上并没有什么整体的差别。这两组人如何分配他们的时间的细节能解释这个发现。有伴侣的妇女比较少有时间独处,也比较少有时间跟朋友在一起。他们花比较多的时间做爱,但是也花比较多的时间做家事、准备食物和照顾小孩,这些都是比较不受欢迎的活动,当然,已婚妇女花很多的时间跟她丈夫在一起,对某些人来说,是很快乐的事。一般来说,经验到的幸福不受婚姻的影响,并不是婚姻对快乐没有关系,而是它改变了生活的某些层面而使它更好,也改变了生活的其他层次使它更坏。
有一个关于个人环境和他们对生活满意度低相关的原因是,经验到的幸福和生活的满意度两者都取决于天生的脾气。有一个研究显示,幸福的倾向跟高度和智力一样是可以遗传的,这从一出生就被不同家庭所收养的同卵双胞胎的实验上可得到证明。我们都知道家家有本难念的经,那些表面看起来一样幸运的人,在快乐上,差别很多。在一些例子中,例如因为平衡效应 (balancing effect) 的影响,婚姻跟幸福的相关很低。这是因为,同样的情境对有些人来说是好,对另些人来说是坏,而新的情境有好也有坏。在其他的例子中,高收入者对生活的满意度多半是正向的,但是这个影像会因有的人很在乎钱而变得复杂了。
相关高教育程度的大型研究计划显示,年轻时为自己所立下的志愿和目标会影响他一生。这些资料是从1995-1997年所搜集的12,000份问卷中得来的,这些人是在1976年时进入美国的顶尖大学读书。那时他们是17岁或18岁,在入学时填了一份问卷,在一个4分的量表上(1是不重要,4是非常重要),评估自己未来在金钱的目标上要达到什么程度的富有,这量表代表了他们对金钱重要性的看法。二十年后,他们又填了一份问卷,其中包括了1995年的收入,以及对生活满意度整体的评估。
有没有目标造成很大的差异。在他们说出他们对金钱的抱负后十九年,大部分人都达到了这个目标。在这个样本群的597名医生和医学专业人员所填的金钱重要性量表中,每增加一分的人,平均收入就增加了14,000元,这是1995年的美元,比现在更值钱。没有上班的已婚妇女也可能有满意的财务情况,她们在量表上每升高一分,就会增加12,000元以上的家庭收入,因为她没有出外做事,这显然是来自她先生的收入。
人们在十八岁时对收入重要性的看法,同时也代表了他们长大后对他们收入满意度的预期。我们比较了高收入组家庭(收入超过20万美金)和低到中收入家庭(收入少于5万美金)两组人的生活满意度。对那些把金钱看得很重要,达到财务安全感为重要目标的人,收入对于生活满意度的效用更大,在总分为五分的量表上是0.57。那些说金钱不重要的人,收入对生活满意度的相关只有0.12。那些想要钱也赚到钱的人,比一般人更满意生活;想要钱却没有赚到钱的人,比一般人更不满意生活。同样的原则可以适用到别的目标──要有不满意的成年期,方法就是设定一个很难达到的目标,让你自己一直不满意自己。用二十年以后生活满意度来测量时,「在表演艺术上出人头地」是年轻人最难以实现的目标。青少年期的目标影响了发生在他们身上的事,使他们最后变成什么样的人,也影响了他们对自己有多满意。
在一定程度上,这些发现改变了我对幸福的定义。人们为自己设定的目标对他们将来要做什么,是如此的重要,只聚焦在经验到的幸福上是不对的。我们无法建立一个幸福的概念,因为概念忽略老百姓的需求;从另一方面来说,一个忽略人们平日生活感觉的幸福概念,而只聚焦在被问到生活的满意度时的感觉也不能代表他的幸福感,我们必须接受一个复杂的混合主张,两个自我的幸福都必须涵盖在内才行。
聚焦的错觉
我们可以从人们回答他们生活感觉的速度来推论,也可以从他们反应时的心情来推论。当他们在评估他们的生活时,他们并没有很仔细地去考量这个问题。他们一定是用捷径在回答,这正是替代和WYSIATI的例子,虽然他们对自己生活的看法受到了约会或影印机旁一毛钱的影响,这些实验的受试者并未忘记生命并不是只有约会或运气很好而已。快乐的概念不会因为捡到了一毛钱而突然改变,但是系统一马上就拿生活的这一小部分去替代了整个,注意力被导至生活的任何一个层面,立刻就被放大了。所以在做整体评估时,就只看到它了。这就是聚焦的错觉 (focusing illusion),它可以用一个句子来描述:
当你在想它时,生命中没有任何一个东西比它更重要。
这个想法来自我们家要不要从加州搬到普林斯顿去的辩论,我太太认为人们在加州比在东岸快乐,我则认为我们已经看到气候不是幸福的决定因素,北欧国家的人民是世界上最快乐的人民,所以这点不予考虑。我观察到永久性的生活情境对幸福的效应很小,所以一直试着去说服我太太,她对加州人比较快乐的直觉是个感情预测的错误。
不久以后,当这个争辩还在我心中时,我参加了一个全球暖化的社会科学工作坊。一位同事就他对下一世纪地球居民幸福感的看法提出辩论。我认为现在就去预测人们居住在温暖的地球上会如何太早了,我们都还不知道住在加州是什么感觉。在那个言语交锋不久,我的同事施卡德 (David Schkade) 和我就拿到一笔钱去研究两个问题:第一,住在加州的人有比住在别州的人快乐吗?第二,一般人认为住在加州的人比较快乐,这个信念究竟是什么?
我们找了加州、俄亥俄州和密西根州立大学的许多学生来做这个实验。我们从一些学生身上,得到了那门对生活中各个层面满意感的详细报告。再从另一些学生身上,我们得到了一个预测,关于你认为与你「同样兴趣、同样价值观」,但是住在别州的人会如何回答同样这份问卷。
当我们分析资料时,我很明显地看到我赢了这场家庭辩论[1]。如我预期的,住在这两个不同地区的人对气候的态度很不一样;加州的大学生享受加州的气候,中西部的大学生讨厌他们的气候,但是气候不是决定幸福的重要因素。的确,加州学生和中西部学生在生活满意度上,没有任何差异。但是我也发现,我太太并不是唯一认为加州人比别州人幸福的人。住在加州和中西部的学生也有这个错误的观念,我们得以追踪他们这个错误,来自一个把气候重要性夸大的信念上。我们把这个错误叫做聚焦的错觉。
聚焦的错觉主要来自WYSIATI,把太多的权重加在气候上,把太少的权重加在决定幸福的其他因素上。为了说明这个错觉有多强,请看下面这个问题:
你的车子带给你多大的快乐感觉?
这个答案马上跳入你的心中,你知道你有多喜欢你的车,多爱开它出去兜风。现在请看一下不同的问题:「你什么时候从你车子得到快乐?」这个问题的回答可能会使你惊讶,但是它非常的直接。当你想到你的车时,你得到快乐(或不快乐)的感觉,但是你不会常常想到车子。正常的情况下,你在开车时,其实不会想到车子,你是在想其他的事情,你的心情是看那时在想什么而定。所以当要你评比你有多喜欢你的车时,你实际上回答的是一个比较窄的问题:「当你想到你的车子时,你从你的车子上得到多少快乐?」这个替代使你忽略了一个事实,就是你其实很少想到你的车,这是一个时间长度的忽略,其结果是聚焦的错觉。假如你喜欢你的车,你很可能夸大这个快乐,当你想到你现在这车子的优点时,以及在考虑购买一部新车时,这个错觉会误导你。
同样的偏见也扭曲了加州人有多快乐的判断。当问到住在加州有多快乐时,你的脑海里可能浮现一些很清楚的加州经验,例如夏天去登山或是冬天的气候温和。其实加州人花很少的时间在做这些事情,这是聚焦的错觉;此外,长住加州的人在你问到他对他生活整体的评估如何时,也很少会去想到加州的天气。假如你在加州住了一辈子,又很少出外旅行时,住在加州就像你有十根脚趾头一样,它很好,但是没什么值得你特别去想的地方[2]。对于生活各个层面的思想,只有在有鲜明对比的可能性浮现你的心头时,它才会引起你的注意。
但是刚刚搬到加州来的人,他的反应就不一样了。去想像一个人从美国中西部的俄亥俄州搬到加州来寻求好天气带来的快乐。在刚搬过来的头几年,问他对他生活的满意度,这个问题可能会使他想到这次搬家,使他想起这两州气候的对比。他的比较绝对是搬来加州是对的,他对冬天温暖的天气绝对会扭曲他经验的加权,聚焦的错觉也会带来舒适,不管这个人在搬家后,有没有比较快乐,他会说他有比较快乐,因为关于气候的想法会使他相信自己更快乐了。这个聚焦的错觉会引起人们对自己目前的幸福状态、别人的快乐程度,以及他自己未来的幸福感产生误判。
一个下半身瘫痪的人,一天有多少比例的时间是心情不好?
这个问题几乎一定会使你想到一个下半身瘫痪的人,他现在正在想他目前的情况。你对他心情的猜想是,他在意外事件发生的时候,心情一定不好。在意外刚发生时,你的猜想很可能是正确的,然而时间久一点了,他的注意力就慢慢移到别的东西上去了,因为下半身瘫痪这件事已经变成熟悉的事了。现在他的注意力会放在长期的痛苦上,如一直处在吵杂的环境下和严重忧郁。痛苦和噪音是生理上的讯号,它要吸引你的注意力,沮丧和忧郁是忧烦念头的自我增强。在这情况下是没有「适应」(adaptation) 发生。下半身瘫痪者也不例外。详细的观察发现,下半身瘫痪者大半的时间都是心情不错的,而且早在意外之后一个月,他们的心情就相当平稳了,虽然在想到自己现在的情境时,心情还是会低落,但是,大部分的时间,下半身瘫痪者工作、读书、跟朋友开玩笑跟平常人一样,在读到报上的政治新闻时也会生气。当他们在做这些事时,他们跟别人没有任何差别,我们可以预期下半身瘫痪者经验的幸福在大部分的时间跟正常人是一样的。适应一个新的情境(不论它是好的还是不好的),有一大部分就是愈来愈不去想它。就这点来讲,大部分的长期生活情况,包括下半身瘫痪和结婚,都是只有刻意去想到它时,才会感觉到。
在普林斯顿大学的一个好处就是有机会去指导聪慧的大学部学生去做研究论文。我最喜欢一个经验就是指导科恩 (Beruria Cohn) 去搜集和分析一般人认为下半身瘫痪者心情不好的时间比例。她把受试者分为两组,一组是告诉他们这个严重意外发生在一个月以前,另一组则告知是在一年以前。此外每一个受试者都要填他自己有没有认得下半身瘫痪的朋友的问卷。关于一个月前受伤者的心情评估,那些认识下半身瘫痪者的受试者,估计下半身瘫痪者有75%时间心情不好;那些没有下半身瘫痪朋友的受试者,必须靠想像的,估计下半身瘫痪者70%的时间心情不好。相反的,这两组在估计一年前受伤的情境差别就很大了。有下半身瘫痪朋友的,估计41%的时间心情不好,没有认识下半身瘫痪朋友的,则估计有68%的时间心情不好。显然那些认识下半身瘫痪者的受试者观察到下半身瘫痪者逐渐把他的注意力从下半身瘫痪这件事上转移开,但是其他人未能预测到这个适应的发生,所以估计的百分比就不一样。判断赢了乐透奖的人一个月和一年以后的心情,也显现一样的模式。
我们可以预期下半身瘫痪者生活的满意度和那些有长期病痛的人一样,与他们经验的幸福感是低度相关的,因为要他们去评估他们的生活,无可避免地提醒了他们,别人的生活以及他过去所过的生活。最近结肠造口术(人工肛门 colostomy)的研究在病人经验到的幸福和他们评估自己的生活上,也有巨大的不一致性。经验的取样显示,这些病人和健康的一般人在经验的幸福上并没有什么差别。然而,结肠造口术的病人愿意用他几年的生命去换不必拖着人工肛门袋子的生活,活短一点也无妨。此外,那些现在不必挂着人工肛门袋子的病人,他们对过去的情形记得很清楚,他们甚至愿意牺牲更多的生命,只要不再回到挂人工肛门袋子的日子。看起来,对于经验自我所觉得相当舒服的生活,记忆自我有着大量的聚焦错觉。
吉尔博特和威尔生介绍了一个新字「错误欲望」[3] (miswanting) 来描述来自感情预测错误的坏选择。这个字应该纳入我们日常生活的语言中,聚焦的错觉(吉尔博特和威尔生把它叫做focalism)就是产生错误欲望的来源。它使我们倾向于夸大血拚或环境改变对未来幸福有改变的效力。
请比较一下会改变你生活的两件事:买一台很舒适的新车和参加一个每周聚会的团体,如桥牌俱乐部或读书会。这两个经验都是新奇的,一开始时都很兴奋,它主要的差别是你最终会不再注意你的车子,但是你会一直去参加社会互动的团体。根据WYSIATI,你会夸大车子的长期效益,但是你对社交的聚会或需要注意力的活动(如打网球或学拉中提琴),你就不会犯同样的错误。聚焦的错觉创造出一个偏见,使你喜欢那些一开始时,令人兴奋的物品和经验,即使它们后来会慢慢失去光彩。时间被忽略了,使长期需要维持注意力价值的经验,愈来愈没有受到它应该有的重视。
一再重复
时间的角色在本书的这个部分是一再重复了。把经验自我的生活描述成一序列有价值的片段是很合逻辑的,每一片段都有它的价值。这个片段故事的价值──我把它叫成快乐总分──就是这些片段价值的总和,但是我们的心智并不是这样来表示事件 (episodes) 的。如我前面描述的,这个记忆自我也会说故事和做选择,但是它的故事和选择都未能恰当地表示时间。在说故事的模式里,一个故事是以几个重要的片段来代表,尤其是开始、中间的高潮和结尾。时间的长度是被忽略掉了。在「冷-手」情境和在「茶花女」的故事中都有看到单一聚焦的情形。
在展望理论中我们看到不同的时间长度忽略的形式,赢了乐透奖,你的财富就是在一个新的状态,这状态会维持一段时间,但是决策效用会呼应到对这个消息反应的强度上,注意力移转以及其他新状态的适应现象被忽略了,只考虑那一小段时间。对转移到新状态时的聚焦以及同时忽略时间和适应的现象,在对长期慢性疾病快乐的反应的预测上也有看到。人们在聚焦错觉上所犯的错误包括选择性的注意某一时段,而忽略发生在其他时段的事情。我们的心智很会说故事,但是它对处理时间好像不是很内行。
在过去的十年里,我们对幸福这个概念学到很多新发现的事实。但是我们同时也学到幸福这个字并不是只有简单的意义,不应该把它当作简单的意思来用。有的时候,科学的进步反而使我们比以前更迷惑了。
说到想到生活
「她以为买一部昂贵的好车会使她快乐,结果这是一个感情预测的错误。」
「他的车在去上班的路上抛锚了,所以他的心情不好,这不是一个恰当的时机去问他的工作满意度。」
「她大多数时候看起来十分快乐,但是问起来,她说她很不快乐,这个问题一定是使她想起最近的离婚。」
「买一个大房子长期来看,不见得会使我们更快乐,我们可能会受到聚焦错觉之累。」
「他选择把时间平分在两个城市里,这可能是严重的错误欲望的例子。」
总结
我在本书一开始时,介绍了两个虚构的人物,花了一些时间来讨论这两个物种,最后得到两个自我。这两个人就是直觉快速思考的系统一,和费力的、缓慢的系统二。系统二在其能力和资源之内,尽其所能地监控系统一。这两个物种一个是虚构的「经济人」,它住在理论的国度,一个是「普通人」,是在真实的世界中活动。这两个自我是经验自我,这是替你生活的自我,以及记忆自我,这是替你记分,做选择的自我。在这最后一章,我要来讨论一下它们的应用,但逆序讨论。
两个自我
记忆自我和经验自我在利益上冲突的可能性,比我一开始时想的还更难处理。在一个早期的实验,即「冷-手」研究中,时间长度的忽略和「顶峰-结尾」规则两者的综合,导出一个不合理的选择。为什么人们愿意忍受不必要的痛苦?我们的受试者把这个选择权交给了记忆自我,宁可去重复最后留下比较好记忆的实验情境,虽然那会使他的手忍受更多的痛苦。用记忆的品质来选择可能是一些极端个案的理由,例如在创伤后压力产生时。但是「冷-手」实验并非创伤,如果是一个客观的观察者,他一定会为受试者选短一点的时间(即浸在冷水中60秒的那一组),倾向于经验自我。受试者自己所做的选择(手浸在冷水中90秒,但最后的30秒有一些温水注入,减少冰冷的程度)只能说是错误。时间长度的忽略和「顶峰-结尾」规则在评估一个故事时,例如在歌剧和判断珍的生活中,二者是同样站不住脚的。如果不给时间长度加权,只用生命的最后一刻钟去评估这个人的整个人生过得好不好是没有意义的。
记忆自我是系统二的建构。然而,它评估事件和生活方式所用的独特性质却是我们记忆的本质。时间长度的忽略和「顶峰结尾」规则源自系统一,它不一定呼应到系统二的价值。我们认为时间长度很重要,但是我们的记忆告诉我们说不是。这些管理我们评估过去事件的规则,对决策制定来说是个很糟的指南。我们存在的一个中心事实就是时间最终是有限的资源,但是记忆自我忽略这个真实性。时间长度的忽略加上「顶峰-结尾」规则,两者共同引发喜欢短期强烈享乐的偏见,而不喜欢长期持久的微快乐。这个同样的偏见也使我们害怕时间短暂、但可忍受的强痛,而宁可接受长时间但比较轻微的弱痛。对长度的忽略也使我们倾向于接受一个长期轻微的不愉快,因为结尾可能会比较好。如果它的结尾可能会不好,就倾向于放弃任何机会去得到过程中长期的快乐。把这个想法应用在不舒服上时,请想一下你常听到的训戒:「不要做,你会后悔的。」这个忠告听起来很聪明,因为预期的后悔是记忆自我的判决,我们也倾向于去接受这种最终不可上诉的判断。然而,我们不要忘记,记忆自我的观点常常是错误的。一个客观的快乐观察者,将经验自我的益处放在心中,可能会给出不同的忠告。由于记忆自我对时间长度的忽略,对「顶峰-结尾」的夸大强调,及它容易受到马后炮的影响,加起来就使我们对实际的经验产生扭曲的自省了。
相反的,幸福对时间加权的概念把生命中所有时刻都当作一样的东西,不管值不值得回忆。有些时刻比别的时刻更值得加权,有时是因为它比较重要,有的时候是它比较值得记。人们花在值得记的事情上的时间应该包括在时间的长度之内,增加它的权重。一个时刻可以因为改变了下一个时刻的经验而变得重要。例如,花在练小提琴的一个小时可以加强拉小提琴很多小时的经验[1]。同样的,一个短暂可怕的事件引起了创伤后压力症候群 (PTSD),那么这个事件在它所引起的长期痛苦上,加权应该比较重。从时间长度加权的观点来看,我们只能在确认这个时刻是有意义的,或值得记忆的事实之后,才决定是否要加权。这种句子:「我永远记得……」或「这真是一个有意义的时刻」是被当作承诺或是预测,它很可能是假的,它们通常也是假的──即使在讲的时候很真诚。许多我们说我会一辈子记得的事件,十年后忘得一干二净。
时间长度加权的逻辑是很显而易见的,但是它无法被认为是完整的幸福理论,因为个人是认同他们的记忆自我,在乎他们的故事。一个忽略人们要什么的幸福理论是没有办法持久的。从另一方面来说,忽略人们生活中真实发生的事情,完全聚焦在他认为他的生活是什么样子的理论,也是无法成立的。记忆自我和经验自我两者必须同时被考虑到,因为它们的利益并不见得总是一致,哲学家可以花很多的时间去考虑这个问题。
至于哪一个自我比较重要,并不是哲学家的问题而已。它对很多领域的政策都有关系。尤其是医疗和社会福利。请想一下对各种医疗方式应该做的投资,包括盲、聋、或肾脏衰竭。这项投资应该决定于人们有多恐惧这个情境吗?难道投资不该以病人实际经验到的痛苦为指引吗?还是它们应该依据病人有多希望从这情境中被解救出来的强度,以及他们有多愿意去牺牲以求达到这个解脱?对聋、瞎、人工肛门和洗肾的投资排序可能会因使用哪种痛苦程度测量法而有所不同,我目前没有看到解决的方法,但是这个问题太重要不该被忽略。
用幸福的测量来做为政府政策制定的指引,最近引起很多人的注意,在学术界和欧洲各国政府中皆如此。现在已经可想像(虽然几年前还无法),一个社会痛苦的指标有一天会被放入国家统计资料中,跟测量失业率、残障率和收入一样。这个想法是走了很久才达到今天的共识。
经济人和普通人
在每天的生活中,我们叫那些可以说理的人有理性,假如他们的信念跟真实世界同调,他们的偏好也跟他们的利益和价值观相符合。「理性」这个字传达出一个很谨慎、很会计较,没什么人味的影像。但是在一般的语言中,一个理性的人是绝对可讲理的。对经济学家和决策理论学家来说,这个形容词有个完全不同的意义。对理性的唯一测验不是这人的信念和偏好是否合理,而是它们是否有内在的一致性。一个理性的人可以相信有鬼,只要她所有的其他信念都跟鬼的存在有一致性;一个理性的人可能宁可被人恨而不要被人爱,只要他的偏好是有一致性的。理性就是在逻辑上一致的──不管它有没有道理。就这个定义,经济人是理性的,但是有压倒性的证据指出,普通人是不可能理性的。一个经济人不可能受促发、WYSIATI、窄框、内在的看法,或偏好逆转的影响,但普通人却一致性地无法避免这些影响。
把理性定义为思想理论的连贯性和一致性是个不可能突破的限制,它要求符合逻辑的规则,光就这一点,一个有限的心智就无法去实行。合理的人无法符合那个定义的理性,但是你不能因此就说他没有理性。不理性 (irrational) 是个很强烈的字,它带有冲动、情绪化,和倔强抵制理性说法的味道。我常常在人们说我跟特维斯基的研究展现了人类的选择是非理性时,感到畏缩。事实上,我们的研究只是显示普通人不是理性代理人模式描述的那样而已。
虽然人们不是无理性,他们常常需要帮助才能做出比较正确的判断和比较好的决策,在有些情况下,政策和机关可以提供帮助。这样的说法也许看起来无害,但是事实上,它是颇有争议的,就如重要的芝加哥经济学派的解释,对人类理性的信心是跟一个理念紧紧连接在一起:防止人们做出错误选择是不必要甚至不道德的。理性的人应该是自由的,他应该要负责照顾自己,芝加哥学派的领导人佛瑞曼,在他的畅销书《选择的自由》(Free to Choose) 中表达了这个看法。
代理人是理性的假设,为自由主义支持者对公共政策的看法提供了一个学术基础:不要干涉个人选择的权利,除非这个选择会伤及他人。而对能够把货物分配到愿意付最多钱的人是市场效能,对市场效能的赞叹更有力支持了自由主义的政策。芝加哥学派一个著名的例子就是〈理性成瘾理论〉(A Theory of Rational Addiction)。它解释一个对强烈且立即的满足有极大偏好的理性代理人,可能会做出理性决策,接受未来成瘾这个结果。我有一次听到这篇论文的作者之一贝克 (Gary Becker)(他同时也是芝加哥学派的诺贝尔奖得主)轻松地在争辩,但并非开玩笑地说:我们应该从人们相信糖尿病的解药马上就要出来的信念去解释肥胖症的流行[2]。他这句话很对:当我们观察到人们的行为很奇怪时,我们应该先检视一下他们可能有一个好理由去这样做。只有当理由是非常不可能时,才去动用心理学来解释──这就是贝克对肥胖症可能的解释。
在一个经济人的国家,政府应该让经济人去做他的选择,只要这个选择不危害到他人。假如一个骑摩托车者选择不戴安全帽,自由主义者会支持他的选择权利。老百姓知道他在做什么,即使他们决定不要为老年而储蓄,或愿意为吸毒去上瘾。有的时候,这个立场会招来批评:因为年轻时没有存足够的钱来做退休金而老年衣食无着落的人,比那些吃完大餐再来抱怨帐单太贵的人得到较多的同情。所以在芝加哥学派和行为经济学家之间的辩论还有得瞧的,行为经济学家拒绝极端的理性代理人模式。自由是一个不可被挑战的价值,所有参加辩论的人都赞成自由,但是行为经济学家认为生活远比相信人类是理性的人主张的复杂得多,没有任何一个行为经济学家赞成国家强迫它的国民去吃健康食物,去看只有对灵魂好的电视节目;然而,对行为经济学家来说,自由是有代价的,这个代价是由做出坏选择的人来承担,以及觉得应该帮助他们的社会。对行为经济学家来说,要不要保护个人使他不要做出错误的决策,是一个两难的问题。芝加哥经济学派的人不必面对这个问题,因为理性代理人不会做出错误的决定。对支持这个学派的人来说,自由是免费的。
2008年,经济学家瑟勒和法律学家孙斯坦两人合作写了一本书《推力》,很快就变成国际畅销书,成为行为经济学家的圣经。这本书介绍好几个新字到我们的语言中,包括经济人 (Econs) 和普通人 (Humans),同时也对如何在没有限制自由的情况下,帮助人们做出良好的决定,为这个两难问题提出了解答。瑟勒和孙斯坦赞成自由主义的温和专制主义 (libertarian paternalism),国家和政府机关可以轻轻去推 (nudge) 人们做出对他自己有长期利益的决定。雇员和老板共同出钱使员工退休时,有退休金可拿就是一个例子。你很难去说,公司规定你自动加入退休金计划是剥夺了你的自由,因为你只要勾一下格子就可以不要。我们前面有看到,个人决策的框架──瑟勒和孙斯坦把它叫做选择建筑 (choice architecture) 在结果上有很大的影响,这个「推力」是根据有效的心理学设计的,我在前面已说过了。不参加的选项被理解为正常的选择,从正常选择脱离出来的行为是需要更费力、特意去做的行为,做比不做会得出更大的后悔。这个巨大的力量会使一个本来不确定该怎么做的人,去做出决定。
普通人比经济人更需要保护,使他们的弱点不被利用,尤其是系统一的俏皮和系统二的懒惰的伤害。理性代理人是被假设很仔细地做出重要的决策,而且会利用手边所有的讯息去做这个决策。经济人会在读完并且了解契约底下的小字后才去签名。但是普通人不会,一个设计出让顾客不会仔细去读而习惯性马上签名的不法公司,有很大的法律空间把重要的讯息隐藏在光天化日之下,而让你没有注意到。理性代理人极端形式的有害应用是,假设顾客不需要保护,只要确定相关的讯息都有公开揭露就好了。印刷字体的大小和所用语言的复杂度被认为是不相干的──当小字很重要时,一个经济人知道如何去处理小字。相反的,《推力》要求公司给出去的契约要很简单,能够让一般的老百姓看得懂。瑟勒和孙斯坦的这些建议遇到了很大的反对,反对的当然就是那些如果顾客被更有效地告知,他们的利益就减少了的那些公司。但一个公司之间能用它更好产品来竞争的世界,当然比企业竞相以蒙骗顾客来赚钱的世界更好。
自由主义的温和专制主义的特质是它对所有政客都有吸引力。行为政策的一个最好例子是「明天储蓄更多」(Save More Tomorrow) 的案子,在国会中很不寻常得到所有人的支持,从极端保守的到自由派的都赞成。「明天储蓄更多」是公司给它职员的一个财务计划,参加的职员不管什么时候,只要升级加了薪,公司就从他加的薪水中扣更多做储蓄,固定比例的钱会自动存入他的户头,直到职员说要提出来用了为止。这个强迫储蓄计划是瑟勒和班纳兹 (Shlomo Benartzi) 在2003年提出来的,它增加了几百万劳工的储蓄率,替他们搭了一座桥使可以望得见未来。它是根据一个心理学的原则,本书的读者一定会认得出,它用加薪的方式去增加储蓄,把损失转移成过去的「获得」,避免了人们对立即损失的抵抗,这比较容易去忍受。而这自动化非常符合懒惰的系统二的胃口,公司这样做是为了员工长期的利益,当然,这一切都没有强迫任何人去做任何他不想要做的事,也没有任何误导或诡计。
这个自由主义的温和专制主义被很多国家所采用,包括英国和南韩,也被许多不同党派的政客所支持,包括工党和欧巴马总统的民主党。的确,英国政府创造了一个新的单位,它的任务就是应用行为科学的原则去帮助政府完成它的目标。这个办公室的名字叫做「行为卓见团队」(Behavioural Insight Team),但是政府内和外的人都叫它「推力单位」。瑟勒是这个团队的顾问。
写完《推力》之后,孙斯坦就被邀请到白宫,担任欧巴马总统资讯与管制事务局的局长,这个位子给了他很多机会去鼓励官员把心理学和行为经济学的原理用在政府机关上。他的任务在2010年管理与预算局的报告上有列出。本书的读者会感谢这个建议背后的逻辑,包括鼓励:「清楚、简单、有重点,有意义地说明一件事」。读者也会看到这种句子背后的意义:口头报告非常重要,例如,「如果一个重要的结果被框成损失,它所造成的影响就会比它被框成是得利来的大。」
我们在前面谈到了汽油的消耗在不同的框架下所造成不同的影响,其实还有更多的应用,例如自动加入健康保险,一个新的鲜明的形象──一个盛满均衡食物的盘子取代了大家看不懂的旧食物金字塔,以及美国农业部允许贴在肉类食品外面的「90%无脂」(90% fat-free) 的标示规则,它其实就是有10%的肥油,现在这个说明也要标示了,同时要用和「90%无脂」同样颜色、大小、字体的字印在同样背景的颜色上,确保消费者有看到。不像经济人,我们普通人常需要帮助才能做出好的决策,而这可以透过提供资讯、不干扰的方式来协助你。
两个系统
本书把心智的运作描述成两个虚构人物之间的互动:自动化的系统一和需费力的系统二。你现在相当熟悉这两个系统,可以预期他们在不同的情境下会怎么反应。当然,你也记得这两个系统并不是真的存在大脑中,「系统一做X」(X指活动)是「X自动出现的」简单说法。「系统二启动去做Y」是指「提升警觉、瞳孔放大、注意力聚焦,Y活动开始进行」的简单说法,我希望你觉得系统的语言跟我一样觉得很有用。我希望你已经有一个直觉的感觉,知道它们是怎么运作的,而不会为他们是否存在所迷惑。在说完这些必要的警告后,我会继续用这个语言,直至本书结束。
这个有注意力的系统二就是我们以为的自己,系统二说出我们的判断,做出决定,但是它常常替系统一的感觉背书或替系统一的想法和感觉找理由。你可能不知道你为什么对某个专案很乐观,因为专案领导人在某个方面使你想起你深爱的妹妹,或你不喜欢某个人,因为他看起来有点像你的牙医生。假如被问到理由,你会搜索你的记忆,找出说得过去的理由,而你一定找得到一些,而且你会很相信你所编造的故事,认为自己就是为了这个原因不喜欢这个人。但是系统二不是只是系统一的辩护士,它同时可以阻止很多愚蠢的念头,以及不恰当的冲动明显的表露出来。在数不清的活动上,注意力的投注会改善表现──试想在一个很窄的巷子里开车而你心不在焉的风险──注意力对很多的作业都是关键,包括比较、选择,和排序的推理。然而,系统二不是理性的模范,它的能力是有限的,它所能提取到的知识也是有限的。我们在思考时,常常头脑不清,而错误也不总是因为突然想到的或不正确的直觉。通常我们犯错是因为我们(系统二)不知道什么是对的。
我花了很多篇幅来描述系统一,谈了很多直觉判断的错误和选择,然而,篇幅多寡并不做为直觉思考的好坏之间平衡判断。系统一的确是很多我们做错事的源头,但是它同时也是很多我们做对事的原因,而我们毕竟是做对的比做错的多。我们的思想和行动每天都受到系统一的指导,通常也都是恰到好处,系统一了不起的地方是它的联结记忆中储存了很多很详细的外在世界的模式:它只要几分之一秒就能马上区辨出平凡事件中的惊奇,它可以立刻得出我们应该会有的想法和念头,而不会在旁瞠目结舌说不出话来,不论发生的事是惊奇还是例行公式,它都会立刻搜寻出因果关系的解释。
记忆同时也是我们穷一生之力所搜集各种技能的资料库,当挑战来临时,它自动地产生适当的解决方式,从避开步道上的大石头到避免顾客的破口大骂。这些技术的习得需要一个规律的环境,适当的练习机会,及快速明确的回馈,马上知道这个想法和动作是对还是不对。当这些条件都被满足后,技术最后就被发展出来,那些立即进入心中的直觉判断和选择就大部分是正确的了。这些都是系统一的工作,表示说它是很快的,自动化出现的。什么叫做技术精准的表现呢?就是很快速很有效率的处理很大量讯息的能力。
当一个挑战出现而我们有技术精准的反应可用时,这反应会马上被唤起,但是假如缺少这样的技术,怎么办呢?例如17×24=?它需要的是特定的答案,这时,很明显的,系统二得立刻上场。但是系统一很少会惊慌失措而不做任何反应。它不受到能量容积的规范,在计算上是可以很挥霍的,所以在找问题的答案时,它会同时找出很多类似问题的答案,比起原来被要求回答的那个问题,这些答案说不定更快进入心中以取代回应。在这个捷径的概念里,捷径的回答不一定就是比较简单或是比较简化──它只是比较容易取得,计算得比较快,比较容易而已。捷径的回答不是随机的,它们通常都很接近正确的答案。不过有的时候,它们也会错得离谱。
系统一在处理讯息上采用的是认知放松,但是轻松不代表可靠,系统一并没有对不可靠的讯息送出警讯,直觉的回答是快速有自信的进入我们的心中,不论它们是来自技能还是来自捷径。系统二很难区分得出这反应是有技能背书的还是仅是捷径的。它唯一的方式就是慢下来,想办法自己找出答案。但是系统二不喜欢这样做,因为它很懒惰,所以很多时候,系统一的提案,它稍微检查一下就让它通过,就像球棒和球的例子中那样。这是为什么系统一有着错误和偏见的坏名声。它的操作特质,包括WYSIATI、强度配对,和联结的连贯性等等,使我们的预测有偏见并产生认知错觉,例如锚点效应、非回归预测、过度自信,以及种种其他的问题。
那么,对这些偏见该怎么办呢?我们如何能改善判断和决策呢?最简短的回答是,这些判断和决策来自我们,也来自我们所服务并且为我们服务的机构,除非投资很多的精力,否则没什么办法。我从自身经验中得知,系统一是不大受教的,除了我归因到年龄的一些效应外,我的直觉思考跟我在做这些研究前,没什么两样,我还是会犯过度自信、极端预测、计划的谬误等错误。
我唯一增加的只有辨认这些情境的能力,像是「这个数字是个锚点……」、「假如重新界定这个问题的框架,决策会不一样」。比起看出我自己的错误,我在辨识别人的错误的能力上,进步了很多。
原则上,阻挡源自系统一的错误其实很简单:了解你正在认知地雷区,慢下来,请系统二来增强你的选择。当你下次再碰到「慕勒-赖尔」错觉时,这就是你该做的事,当你看到一条有箭头的线朝着不同的方向延伸出去时,你就知道这是一个不可相信的长度感觉情境。很不幸的是,这个理性的程序却是在它最需要被应用时,最不被应用的。当我们要犯一个严重的错误时,我们都希望有个警铃能够大声地响起,警告我们。但是却没有这种铃存在,而认知的错觉,一般来说是比知觉的错觉更难辨识。理性的声音往往比错误的直觉声音小且不易听见,当你在面对一个重大决定的压力时,怀疑你的直觉是一件不愉快的事。当你有麻烦时,你最不想要的就是对你自己怀疑。这结果就是当局者迷,旁观者清,你很容易看到别人踩地雷,却看不见自己的脚正要踩上去。观察者永远比行动者在认知上比较不忙,对讯息比较能接纳。这是为什么我宁愿写一本书来批评或讲别人闲话,而不愿去写做决策的书。
在避免错误上,团体做得比个人好,因为团体总是想得比较慢,有权力去要求有秩序的流程。团体、组织或机构可以制定并强制执行勾选检查表 (checklists) 的流程,每做完一件事,在那个格子里勾一下。它也可以做比较精细的事,例如参考类别的预测,以及「事前」就讨论可能失败原因的练习。机关和组织最少可以用清楚的词汇,鼓励人们在走到地雷区时相互提醒,彼此小心,形成一种文化。不管产品是什么,机构和组织就是制造判断和决策的工厂。每个工厂都必须有方式来确保它的产品在原始设计、制造过程,及最后检验上的品质。在决策制定上,最重要的就是界定一个待解决问题的框架,搜集导致决定的相关资讯,以及最后的反思与回顾。一个寻求改进决策产品的组织和机构应该定期、惯例地去寻找每一个阶段的有效改进方法。这个操作的概念是要定期形成惯例。持续的品质管制是组织和机构在灾难来临之前必须要做的事。要改进决策的制定还有很多该做的事,一个例子就是缺乏系统化的训练如何有效率的开一个会。最后,词汇的丰富在建设性的批评上是必要的,就像医学一样,辨识出判断的错误就像诊断一个疾病,它需要精准的语言。这个疾病的名字就像一个勾子一样,所有跟这个疾病有关的东西都附在上头,包括易感染处、环境因素、症状,预测病情的发展,以及治疗的方式。同样的,「锚点效应」这个名词,「窄框」或是「过度的连贯性」都会把记忆中我们对这个偏见所有的东西,它的原因、效应,该怎么做,统统联结在一起。
茶水间旁用词更精确的闲聊跟更好决策之间有一个直接的连接。决策制定者有时比较能去想像目前闲话的声音和未来的批评,比较不会听到他们自己怀疑的犹疑声音。当他们相信这些批评是公平的、严谨的,当他们知道别人会从这决定是如何制定出来,而不只是光看结果如何,来判断他们的决策时,他们就会做出比较好的选择了。
附录A 不确定情况下的判断: 捷径和偏见
许多决定是基于对不确定事件的信念,如选举的结果、被告的罪恶感、美元未来的价值。这些信念通常是用这种话来表达:「我认为……」「机率是……」「它不太可能……」等等。偶尔,对于不确定事件的信念是用数字型式来表达,如胜算或主观机率。是什么因素决定这样的信念?人们如何从不确定事件中得出机率?又如何从不确定的量中得出它的值?本论文显示人们依赖有限的捷径原理,把复杂的机率评估和价值预测任务,转换成简单的判断操作。一般来说,这个捷径是很有用的,但是有时候它会导致严重且系统化的错误。
主观的机率评估跟主观的物理量(如距离和大小)评估一样,这些判断都基于有限效度的数据,这些数据是以捷径的规则处理的。例如,与某物体的视距有一部分是以它的清晰度来决定的。我们看得愈清楚,这物体离我们愈近。这个规则有一些效度,因为在任何情境里,远的东西都不及近的东西清楚。然而,依赖这个规则会导致估计距离上的系统性错误。尤其当能见度不高时,距离常会被高估,因为物体的轮廓变模糊了。从另一方面来说,当能见度很好时,距离又会被低估,因为物体的轮廓明确。所以依赖清晰度来判断距离会导致常见的偏见。这种偏见在以直觉判断机率时也会看到。本文描述三种用来评估机率和预测价值的捷径。这些捷径导致的偏见不胜枚举,而本文也讨论了这些观察的应用和理论上的意义。
*This article originally appeared in Science,vol.185,1974.The research wassupported by the Advanced Research Projects Agency of the Department of Defense and was monitored by the Office of Naval Research under contract N00014-73-C-0438 to the Oregon Research Institute,Eugene.Additional support for this research was provided by the Research and Development Authority of the Hebrew University,Jerusalem,Israel.
表征
人们关心的许多机率问题属于下面这些类型中的一种:A物体属于B类别的机率是多少?A事件来自B历程的机率有多少?B处理会得出A事件的机率有多少?在回答这些问题时,人们多半依赖表征捷径。也就是说去看在B类别中,A的表征有多少个,即A像B的程度有多少。例如,假如A非常能代表B,那么A来自B的机率就很高。从另一方面来说,假如A和B不像,那么A来自B的机率就会被判断为低。
为了说明表征的判断,请看一下这个例子:某人曾被之前的一位邻居形容为「史提夫非常害羞内向,常很帮忙,他对人没什么兴趣,对真实的世界也没什么兴趣。一个很温和、很爱整洁的人,他需要秩序和结构并对细节狂热。」请问,人们如何从下面列出的可能性(如,农夫、销售员、民航机师、图书馆员或医师)中,判断史提夫从事某特定职业的机率?人们会怎样排序,把史提夫可能从事的职业,从机率最高的排到最低呢?当人们采用表征捷径时,史提夫是图书馆员的机率,举例来说,受他代表或相似大家心目中图书馆员刻板印象的程度影响。的确,这种问题的实验发现,人们对职业的机率排序,以及相似性排序,用的方法都一样[1]。这种判断机率的方法会导致严重错误,因为相似性或表征并不受到机率判断因素的影响。
对结果的先验机率不敏感 (Insensitivity to prior probability of outcomes)。一个对表征没有效应,但是对机率应该有很大效应的因素,是结果的先验机率(基率)。在史提夫的例子中,母群里的农夫人数远多于图书馆员,在理性评估史提夫是图书馆员而不是农夫的机率时,应该要把这个事实列入。然而这个基率的考虑,并没有影响史提夫跟图书馆员或农夫刻板印象的相似性。假如人们用表征来评估机率,就会忽略先验机率。我们用一个操弄先验机率的实验证实了这个假设[2]。实验者先给受试者看过某些人的简单描述,告诉他们这些人是从100名专业人士(如律师和工程师)中随机取样出来的,请受试者依这些描述,判断这个人是工程师还是律师。在其中一个实验的情境中,受试者被告知,取样的团体中有70%是工程师,30%是律师。在另一个实验情境中则被告知,团体中30%是工程师,70%是律师。因此,所描述的人是工程师而非律师的胜算,在第一个情境(团体中大部分是工程师)中,会大于第二个情境(团体中大部分是律师)。如果用贝氏定理来表示,胜率应该是(.7/.3)2,也就是5.44。然而两个情境下的受试者,基本上做出相同的机率判断,严重违了反贝氏定理。显然,受试者在判断这个人可能是律师还是工程师时,主要看描述是比较符合工程师或律师的刻板印象,几乎或完全没有受到这个类别先验机率的影响。
但是在没有其他讯息时,受试者会正确的应用先验机率。在没有人格描述时,他们判断陌生人是工程师的机率,在两个情况下分别是.7以及.3,符合基率。但是一旦加入描述,先验机率就完全被忽略了,即使这个描述没有提供任何讯息。受试者对下面这个描述的反应说明了这个现象。
迪克是一个三十岁的男人,他已婚,没有小孩。他是能力高、效率高和动机也高的人。他在他的领域中很成功,很受同侪的尊敬。
这个描述传达的讯息跟迪克是工程师还是律师无关。因此,迪克是工程师的机率,应该跟样本群中工程师的机率一样,也就是跟没有给任何描述时一样。但是受试者判断迪克是工程师的机率是.5,而不管已经说明工程师在这团体中的机率是.7还是.3。显然受试者在没有证据和收到无用证据的情况下,反应是不同的:当没有特定证据时,会采用先验机率,但是当无用证据出现时,就忽略了先验机率[3]。
对样本大小不敏感。评估从某个特定母群取得某个特定结果的机率时,人们通常采用表征捷径。也就是说,他们评估这个样本结果的可能性,会以这个结果与相关参数的相似性为判断标准,例如随机抽十个男人,他们的平均高度是6呎的可能性,这个结果就由与相关参数(在此,就是母群中男性的平均身高)的相似性得来的。样本统计量和母群的相似性,跟样本的大小无关。因此,假如是用表征来判断机率,那么判断出的样本统计量机率就和样本的大小无关。的确,当受试者在评估各种大小样本的平均高度分布时,会产生相同的分布。例如,要受试者估计在1,000人、100人和10人的样本群中,平均高度高于6呎的机率时,他们通常给予同样的机率值[4]。此外,受试者不了解样本大小的作用,即使在阐述问题时特别强调也一样。请看下面这个问题:
某一城镇有二个医院,在大医院中,每天有45名婴儿诞生,在小的医院中,大约每天只有15名。你知道,一般来说,50%的宝宝是男生,不过正确的百分比每天都不同,有的时候高于50%,有的时候低于50%。
在一年的时光中,每一家医院都记录了男婴超过60%的日子,你认为哪一个医院会记录到较多的这种日子?
大医院(21)
小医院(21)
差不多相同(也就是说,两者相差不到5%)(53)
括弧中的数字是选那个答案的大学生人数。
大部分的受试者判断,大医院得到60%男孩的比例应该和小医院差不多,大概因为这事件是用同样的统计量来描述的,所以有同样的母群表征。相反的,以抽样理论 (sampling theory) 来看,在小医院里,60%为男婴的日子,比大医院多,因为大样本群比较不可能跟50%偏离得太远。这个统计学的基本概念显然不包含在人们的直觉中。
对样本大小的不敏感,在后验机率 (posterior probability) 的判断上也可看到,后验机率即是一个样本是从这个母群中随机抽取而来,还是从另一个母群中而来的机率,请看下面这个例子。
想像一个罐中装满了小球,2/3是一种颜色,1/3是另一种颜色,一个人从罐中取5个小球,发现4个是红的,1个是白的。另一个人从罐中取20个小球,12个是红的,8个是白的,这两个人中,哪一个人会对罐中是2/3红球,1/3白球比较有自信?他们两人各给的胜率是多少?
在这问题中,正确的后验胜率 (posterior odds) 在4:1的样本时是8:1,在12:8的样本时是16:1。然而,大部分的人觉得,第一个样本对红球占多数的假设提供了较强的证据,因为在第一个样本中红球的比例比第二个样本中的大。我们在这里再一次看到直觉的判断受样本比例所操控,不受样本大小的影响[5],而样本大小其实在决定实际的后验胜率中,扮演了关键的角色。此外,直觉估算出的后验胜算跟正确值相比,不那么极端。我们在这类型的问题里,重复观察到对证据影响力的低估[6]。这称为「保守主义」(conservatism)。
对机遇的误解。人们预期用随机过程得出的事件序列,会代表这个过程的基本特质,即使序列很短也一样。例如在掷铜板时,人们认为「正—反—正—反—反—正」比「正—正—正—反—反—反」有可能,因为后者看起来不像是随机的,「正—反—正—反—反—正」也比「正—正—正—正—反—正」有可能,因为后者不能显示铜板的公平性[7]。所以人们预期过程应该要跟铜板的公平性相符,不但在整体序列上如此,在局部的序列也应如此。但是在局部表现的序列,会系统性的跟预期的机遇产生偏差:因为它有太多机会出现另一面,而丢的次数也太少[1]。这个信念的另一个后果,就是著名的赌徒谬误 (gambler's fallacy)。在轮盘赌局中,红色连续出现很多次后,大部分的人会错误的认为黑的要出现了,我们一般把机遇看成会自动改正的过程,偏向哪一边多了,就会自动改正来回复平衡。事实上,如同机遇过程呈现的,偏差并没有改正,它只是在持续的进行中被稀释了。
对机遇的误解不是只限于没经验的受试者。一个对有经验的心理学家
进行的统计直觉研究显示[8],很多研究者心中都存在所谓的「小数定律」(law of small numbers)──即使是小样本也很能代表它的母群。他们认为只要样本的研究呈现统计上显著的结果,就可得到有效的假说,而不用考虑样本的大小。结果,研究者对小样本的结果赋予过多的信心,过于高估了这个结果的再现性。在实际执行研究时,这个偏见导致选择出不恰当的样本大小,并且会过度阐释研究成果。
对可预测性的不敏感。人们有时需要对股票的未来价值、某个商品的需求量或足球赛的结局,做数据的预测。这种预测常依表征而定。例如,某人收到一个公司的描述,然后被要求对它未来的获利做预测,假如这公司的描述很好,那么这人会预估公司未来获利很高,因为这最能代表对这公司的描述;如果描述只是普通,这人就会预测公司的获利也很普通。这个描述的正面程度,并不受到这个描述可靠性(信度)与准确性的影响。所以假如人们只依照描述的好坏来预测,得出的预测会对证据的信度不敏感,对预测的预期准确性也不敏感[2]。
这种判断违反了标准统计理论 (normative statistical theory),这理论说,预测的两个极端数字(最高和最低)以及预测的范围是受可预测性所控制,当可预测性是零时,所有个案的被预测值应该都相同。例如,假如某些公司的描述都没有提供跟获利有关的任何讯息,那么对这些公司的判断,就应该是同样的值(如平均获利)。假如可预测性是百分之百,当然,被预测的值就会符合实际值,预测的范围就等于结果的范围。一般来说,可预测性愈高,被预测值的范围愈广。
好几个数值预测的研究显示,直觉预测违反了这个规则,受试者很少或完全不考虑可预测性[9]。在一个这种实验中,受试者看到好几段文字在描述一个实习老师试教的表现。有些受试者被要求以百分比的方式去评估教学品质,另一些受试者也被要求用百分比的方式去预测每位实习老师五年后的表现。这两个情境的判断是相同的,也就是说,预测几乎无关的标准(五年后,这老师是否是成功的老师)跟评估实习教学的品质,是根据同样的讯息。做这些预测的人,无疑知道教学能力可预测性的限制,因为它只基于五年前的一堂试教课,虽然如此,他们的预期还是跟评估一样的极端。
效度的错觉。我们在前面看到,人们常选择输入资料(如对人的描述)中最具表征性的结果(如职业)来预测。他们对自己预测的信心完全取决于表征性的强度,也就是说,被选的结果和输入的讯息之间配合的品质,而忽略或不去管限制预测正确性的那些因素。所以人们在这个人的描述,符合他心目中图书馆员的刻板印象时,他对自己的预测非常有信心,即使这个描述是很微不足道、不可靠的或过时,仍不影响他的信心,这个不应有的信心来自描述与刻板印象的密合,这叫做「效度的错觉」(illusion of validity)。这个效度即使在判断者知道他预测的正确度有限时,仍然如此。我们常看到心理学家对他们自己做的选择性面试很有信心,虽然文献已告诉他们,选择性的面试是很容易出错的,也不影响他们的自信。虽然一再展示这种选择性面试的不恰当性,很多人还是持续信赖临床的选择性面试。充分的表明了这个效应的强度。
在根据输入讯息做预测时,输入讯息内在的一致性,是一个人自信心的主要来源。例如,第一年成绩各科均是B的学生,人们对他以后表现预测的自信心,会高于第一年学业成绩有很多A与很多C的学生,当输入讯息高度重复或相关时,我们最容易观察到高度一致性的形态。所以人们对由重复的不同输入变项得出的预测最有自信。然而相关的统计基本结果就告诉你,如果输入的变项都有效度,那么几个这种输入的预测有最高准确性,假如这些变项都是彼此独立,而不是彼此相关或重复的话。所以输入讯息的重复,事实上是减低它的准确性,即使它增加了预测者的自信心。所以人们常对偏失红心的预测信心满满[10]。
对回归的误解。假设有一群儿童在做两个版本的性向测验,这两个版本在各个变项上很相似。假如从一个版本中选取十名考得最好的学生,通常会发现他们在另一个版本考得不尽人意。相反的,如果选择在一个版本中考得最烂的十名学生,一般来说,会发现他们在另一个版本上的表现较好。更普遍一点的说,假设二个变项,X和Y,有同样的分布,假如选择出一些人,他们的平均分数X偏离平均数 (mean) 有k单位之远,那么他们的平均分数Y对Y的平均数偏离,会少于k单位。这个观察说明了一个现象,就是它们都是朝着平均回归,这是一百多年前,由高顿最早发现的。
在人的一生中,我们碰到很多向平均回归的现象,在比较父子高度、夫妻智商或同一个人在两场考试的表现都有看到。即使有观察到这个现象,我们还是没办法对这个现象发展出正确的直觉来。第一,人们对迟早会发生的事不会去预测有回归;第二,当看到回归时,他们通常编造出假的因果关系来解释它[11]。我们认为回归现象一直让人捉摸不定,主要是因为它与我们的信念不符,我们都认为预测的结果应该是输入的最大表征,所以结果变项的价值,应该和输入变项一样极端。
看不到回归的重要性会导致有害的后果,如下面这个例子[12]。在讨论飞行训练时,有经验的教官注意到,如果称赞飞行员超平稳的降落,那么这位飞行员下次的降落就会较差;而当破口大骂批评一个很糟的降落后,这个飞行员下次的表现就好很多。教官的结论是口头奖励有害学习,而口头责骂会带来好处,这跟一般心理学的学说正好相反。这个结论是不对的,因为这些教官观察到的完全是「向平均数回归」的现象。就像你重复做一件事时,表现好常会跟着表现不好,而有一个不好的表现通常在下一次就会进步很多。即使教官一开始没有奖励或没有骂,这现象仍然会出现。教官以为是他们的责骂才使学员有好表现,就带来错误且有伤害性的结论,以为惩罚比奖励有效。
所以,不了解回归效应,导致我们高估了惩罚的效果并低估了奖励的作用。在社会互动以及训练时,我们一般在表现好时,都会奖励,而表现不好时,才会惩罚。所以就回归本身来说,行为在惩罚之后,最容易改进,在奖励之后,最容易下降。因此,人类的境况以机遇来说会是,最常在处罚别人后得到报偿,也最常在奖励别人后得到惩罚。很多人都不了解这个偶然性。事实上,回归在决定奖赏和惩罚的序列上所扮演的难以捉摸的角色,使研究这个领域的人都没有注意到回归的厉害。
可用性
在有些情况下,人们对某个类别的频率或某个事件出现的机率,是用这些事件有多容易进入我们的心头来决定的。例如,我们在评估中年人心脏病发作的机率时,常会想到某某朋友就是这样。同样的,我们在评估某个创投会不会失败,也是去想这个投资可能会遇到的困难,这个判断的捷径叫做「可用性」(availability)。可用性在评估频率或机率时,是个很有用的线索,因为大类别的东西通常回忆得比较好也比较快,较不常用的类别常会想叫却叫不出名字来。然而,「可用性」其实是受到频率和机率以外的因素所影响。因此,依赖可用性会导致预测偏见,我用下面这个例子来说明。
来自于提取例子的偏见。当我们用可用性来判断某个类别的大小时,如果这个类别的例子很容易提取出来,我们就会认为它比另一个有同样频率,但不容易提取例子的类别来得大。例如给受试者听男女两个性别都有的著名人物,然后请他们判断他们觉得在听到的名单中,是男的多还是女的多?把不同的名单念给不同的受试者听。在有些名单中,男的比女的有名,在别的单子中,女的比男的有名。结果受试者会因为比较有名的人是男的多还是女的多,而误判这个名单是男的多还是女的多[13]。
除了熟悉度,还有其他的因素,如鲜明性,也会影响提取的容易度。例如,在主观机率上,亲眼看到房子火灾的影响,就大于在报纸上读到火烧房子的影响。此外,最近发生的事也比以前发生的事容易提取。我们都有这个经验,就是当你看到一辆车翻覆在路旁时,你心中对于交通意外的主观机率就会暂时升高。
来自搜索效率的偏见。假设你随机去找一段英文,请问在其中,r开头的字比较多,还是r在第三个字母的字比较多?人们会去想有多少个字是r开头的 (road),有多少字是r在第三个字母位置 (car),再用这两种字来到心中的容易度和频率来做判断,因为去搜索r开头的字比r在第三个位置的字容易得多,大部分人会判断r开头的字比较多,其实子音r或k在第三个位置的比在第一个位置的多[14]。
不同的任务激发不同的搜索,例如,抽象的字,像「想法」、「爱」在英文书中会比具体的字(如「门」、「水」)多吗?一个很自然的回答这个问题的方式,是去搜寻这个字会出现的情境,你很容易想到抽象概念会出现的情境,如「爱」出现在爱情小说中,但是你不太想得起什么时候会提到具体的字,如「门」。假如字的频率是用文章情境中的可用性来判断的话,抽象字会被判断比具体字多。这个偏见在最近的一个研究中观察到了[15]。在客观的频率相同时,抽象的字被判断出现频率比具体的字高很多。抽象字也被判断出现在更多的不同情境中。
想像度的偏见。有的时候,我们要去评估一个类别的频率,这个类别里的例子不是储存在记忆中,而是可以根据某个规则产生出来的。在这情形下,一个人基本上可以得出很多例子,再以哪些例子容易建构,来评定它有较高的频率或机率。然而,建构出例子并不一定反映出它实际的频率,所以这种评估方式容易导致偏见。要说明这一点,请想像有10个人的团体,形成k个委员的委员会,其中2≦k≦8。请问,这k个人可以组合出多少个不同的委员会?这个问题的正确答案可以由二项式系数 (10/k) 得出,在k=5时,最多可以到252个。k个人可以形成的委员会数量等于 (10-k) 人所能组成的委员会数量,因为任何k个人的委员会,定义出一个独特的 (10-k) 的非委员会成员团体。
不用计算而回答这个问题的一个方式,是在心智上建构一个k个委员的委员会,然后用它们有多容易进入你的心中来评估它们的数量。人很少的委员会,比如说2个人的,比人数多的,如8个人的,容易进入心中。建构委员会最简单的方式,就是把这团体区分成小团体,你马上看到你很容易建构出五个不同成员的2人委员会,但是不可能建构出两个完全不同成员的8人委员会。因此,假如频率是用想像度或用建构的可用性来测定,小的委员会看起来比人数多的大委员会,数量更多,这跟正确的钟型曲线函数正好相反。的确,当没经验的受试者被要求去估计各种大小委员会的数目时,他们的估计会是委员人数的递减单调函数[16]。例如估计2人委员会数量的中位数 (median) 是70,而估计8人委员会数量的中位数是20(但两者的正确答案都是45)。
想像度在评估真实生活情境上扮演了重要角色,例如去评估一支探险队的风险,人们很容易想像出探险队无力应付的情况。假如太多这种困难在脑海中生动浮现,你会觉得这支探险队太危险了,虽然你也知道想像出这些灾难的容易度,并不一定反映出它们真实发生的可能性。反过来说,如果一些可能的危险是很难去想像或根本没有进入心中,那么它的风险就很可能被大幅低估了。
相关的错觉。柴浦曼和柴浦曼 (Chapman and Chapman) [17] 曾经指出一个有趣的偏见,当人在判断两个事件共同发生的频率时,常会看见此错觉。他们给无经验的受试者好几个虚构的心智病人的资料,每一个病人的资料都是一张临床诊断书及一张病人画的画,然后要受试者去估计每一种诊断(如妄想症或怀疑症)伴随着图画的各种特质(如奇怪的眼睛)出现的频率。受试者都高估了自然关联(如怀疑症和奇怪的眼睛)共同发生的频率,这个效应叫做相关的错觉。这些受试者根据数据,做了错误的判断,「重新发现」了很多普遍、但没有根据的临床「知识」去解释病人的画。这个错觉效应很强,即使跟资料相矛盾,也不受影响。甚至在症状和诊断是负相关时,仍然会持续,使受试者无法看到真正存在的关系。
可用性提供了相关错觉效应的合理解释。要判断两件事有多常共同发生,是基于这两个事件的联结强度。当联结很强时,你很可能下结论这两个事件常常成对出现。因此,强的联结会被判断常常共同发生。根据这个看法,怀疑症和奇怪眼睛相关的错觉,是因为怀疑症比较容易和眼睛联结,而比较不易和身体的其他部分联结。
我们一生的经验告诉我们,一般来说,大类别的例子比较好也比较快回想,很容易想像到它的发生,当两个事件常常一起发生时,这两个事件之间的联结比较强。因此,每个人都有他自己的程序(可用性捷径)来估计一个类别的多寡、一个事件有没有可能发生,或两个事件一起出现的频率,根据的是相关的心智操作有多容易提取、建构或联结。然而,就如前面的例子显示的,这个很有价值的估计历程,导致了系统性的错误。
调整和锚点
在很多情况中,人们从一个起始值去调整,得到最后的答案。这起始值或起始点,可能是问题给你的,或是来自部分的计算。随便是哪一种情况,一般来说,调整得都不够[18]。也就是说,不同的起始点会得到不同的估计,但都偏向起始值。我们把这个现象叫做锚点效应 (anchoring effect)。
不足够的调整。在一个显示锚点效应的实验中,受试者被要求用百分比来估计各种数量(如估计非洲国家在联合国的百分比)。在每一个估计开始时,实验者会先在受试者面前转动一个赌场用的大轮盘,出现一个在0到100之间的数字,受试者要指出这个数字是高于还是低于他心目中非洲国家的百分比,然后调整轮盘到他心中的数字为止。不同的组会看到不同的轮盘数字,而这随机出现的数字对受试者的估计有显著的影响。例如,受试者看到的轮盘数字是10,他们估计非洲国家在联合国总数的中位数是25%,若是看到的轮盘数字是65,他们估计非洲国家在联合国的中位数就是45%。也就是说,起始点(在这里分别为10与45)有很大的关系,即使猜对了给钱,也不能减少这个锚点效应[3]。
这个锚点效应不但在你给受试者起始点时会出现,在受试者根据未完成的计算去做评估时,也会出现。有一个直觉的数字评估研究说明了这一点。两组高中生要在五秒钟内,估算出黑板上所写的乘积。
8×7×6×5×4×3×2×1
另一组看的是
1×2×3×4×5×6×7×8
若要很快回答这个问题,学生先要做几个计算,然后再用外推或调整来估计乘积,因为调整一般来说是不够的,因此这个历程会导致低估。此外,因为前几个数字的乘积(从左到右乘)在降序顺序中比升序顺序的大,所以第一个题目的乘积,会被认为比第二个题目大,这两个预测都得到证实了。对升序顺序的第二个题目,中位数的估计是512,而降序顺序的第一个题目,中位数的估计是2,250。正确答案是40,320。
评估结合和分离事件的偏见。巴希列 (Bar-Hillel) 最近做了一个研究[19]。他给受试者机会去对两个事件中的一个下注。他用了三种事件:(1)简单事件,如从一个装有50%红弹珠和50%白弹珠的袋子中,摸一个红弹珠出来。(2)结合事件 (conjunctive event),例如在一个装有90%红弹珠,10%白弹珠的袋子中,连续七次摸出红弹珠(摸出后可以放回去)。(3)分离事件 (disjunctive event),在一个装有10%红弹珠,90%白弹珠的袋子中,连续七次摸,摸出后可再放回去,其中至少有一次是摸出红弹珠。在这个问题中,绝大多数的受试者选择结合事件(它的机率是.48),而不去选简单的事件(它的机率是.50)。在简单事件和分离事件的选择中,受试者偏好简单事件 (.50) 而不要分离事件(它的机率是.52)。所以大部分的受试者下注在机率比较小的事件上,这个选择形态说明了一个大体的发现:在赌局的选择和机率判断的研究中,人们高估结合事件的机率,低估分离事件的机率[20]。这些偏见可以用锚点效应来解释。简单事件给了个机率 (.50),这就对结合和分离事件两者都提供了一个自然的起始点(锚点)来作估计。因为从起始点所做的调整一向是不足够的,所以最后的评估都跟简单事件的机率很接近,请注意,结合事件的整体机率低于个别简单事件的机率,而分离事件的整体机率高于个别简单事件的机率,因为锚点效应的关系,结合事件的整体机率会被高估,而分离事件会被低估。
在计划一件事情时,复合事件 (compound event) 的评估特别受到偏见的影响。成功完成一件任务,例如研发一个新产品时,它基本上有结合性质,序列的每一个事件都得发生,任务才有可能成功,即使每一个事件都很相似;假如事件的数量很大,那么成功的整体机率有可能很低。人们一般会高估结合事件的机率,导致对这计划的成功或准时完成过度乐观。相反的,分离事件的结构一般来说被认为有风险,一个复杂的系统,如原子反应炉或是人体,只要任何一个重要的部件出了问题,就会功能不彰,即使每一个部件失败的机率很小,假如它牵涉到很多部件的话,整体失败的机率还是很高。因为锚点效应的关系,人们倾向于低估复杂系统成功的机率。所以,锚点效应的方向有时可以从事件的结构中推论出来。像链条一样的复合事件导致高估,像漏斗一样的分离事件导致低估。
评量主观机率分配的锚点效应。在分析决策时,专家常常被要求把他们对某个值,例如某一天美国道琼 (Dow Jones) 工业平均指数,用机率分布的形式来表示信念。这个分布通常是请这个人选择一个量的值,这值呼应到他主观机率分布上的某一个百分点。例如,这个人可能被要求去选择X90这个数字,表示对于他的值 (X90) 高于道琼工业平均指数,他的主观机率是.90。也就是说,他选择X90这个值的话,对于道琼工业平均指数不会超过它,愿意接受9比1的胜率。我们可以从好几个这种不同百分比的判断,来建构出道琼工业指数平均值的主观机率分布。
搜集许多不同量的主观机率分布后,就可以去测试判断的校准恰不恰当。假如Π%所评估的真值落在他说的XΠ值之下,那么这个问题的判断有经过恰当的校准,或说外部校准 (external calibration)。例如,1%的量,真值应该在X01之下,而有1%的量,其真值高于X99。所以,对98的这些问题,真值的「信赖区间」(confidence interval) 应该在X01至X99之间。
好几个研究者[21] 从许多判断上得到许多量的机率分布。这些分布指出,恰当的校准中有大而且系统化的偏差。在大多数的研究中,有30%的评估量,其实际值不是小于X01就是大于X99。也就是说,受试者所定的「信赖区间」太窄了,它反应出过度的确定,他们以为自己对评估量很有知识,其实,是自信过头了。这个偏见在有经验和没经验的受试者身上都有看到,而且导入恰当的记分规则也不能去除,这个效应至少有一部分来自锚点。
要选择道琼工业指数平均值的X90,你会很自然的从你对道琼工业指数的最佳估计开始,然后往上调整。假如这个调整──就如大部分的调整──是不够的话,那么X90就不够极端。同样的锚点效应会产生在X10的选择,这是假设把你最佳估计往下调整所得到的。因此,X10和X90之间的信赖区间会太窄,所评估的机率分布会太紧。支持这个解释的证据来自:主观机率的系统化改变,是因为程序中的最佳估计并不能当作锚点。
对某个量(如道琼工业平均指数)的主观机率可以由下列两个方式得到:(1)请受试者选择一个道琼工业指数值,这个值跟他机率分布的某个特定百分比相呼应;(2)请受试者评估道琼工业指数的真值,会超越一些特定值的机率。这两个程序是完全相同的,应该得到完全相同的分布,但是它们是不同锚点的不同调整模式。在程序(1)中,自然的起始点是你对这个量的最佳估计。在程序(2)中,受试者的锚点可能是问题中所给的数字。他可能定锚在50-50的机率上,这是估计机率的自然起始点,任何一个情况中,程序(2)得到的胜算,都应该不如程序(1)的极端。
为了把这两个程序进行对照,把一组24个量(如从新德里到北京的航空距离)放给学生看,请他们对每一个问题估计X10或X90。另一组的受试者是看第一组学生对这24个量进行估计所得到的中位数,他们要评估所给每一个值,超越这个量的真值的胜算。在没有偏见时,第二组的学生应该得到跟第一组一样的胜率,即9:1。然而,假如他们用50-50的平均胜算或题目给的值当锚点的话,第二组的胜率就比较不会那么极端,也就是说,接近1:1。的确,综合全部问题,这一组所说的中位数胜率是3:1。当把这两组的判断来作外部校准测试时,发现第一组的受试者太极端了,这跟先前的研究相符合,他们界定为.10的机率的,其实是全部判断的24%发生了。相形之下,第二组的受试者又太保守,他们给.34平均机率的,其实只占全部判断的26%。这个结果显示计算的程度决定于所用的程序。
讨论
本文主要是讨论由判断捷径而来的认知偏见。这些偏见无法归因到动机效应,例如痴心妄想 (wishful thinking) 或因奖惩而导致的判断扭曲,的确,先前报告过的好几个严重的判断错误,即使在受试者被鼓励要正确,而且做对有奖的情况下还是会发生[22]。
这个对捷径的依赖和偏见的普遍性并不是只有外行人才如此,有经验的研究者也会倾向犯同样的偏见──当他们做直觉思考时。例如,以最符合数据的方式去预测结果,而不考虑先验机率,这个现象在统计学家身上有观察到[23]。虽然统计的知识可以避免基本的错误,如赌徒谬误,他们直觉的判断在比较复杂和比较不透明的问题中,也会落入同样的陷阱。
所以,这些有用的捷径,如表征和可用性,即使偶尔会导致错误的预测或估计,还是会被保留就不令人惊奇了。或许应该惊奇的是,人们没办法从一生的经验中,推论出基本的统计规则,如回归到平均数或样本大小在抽样变异性中造成的效应。虽然每个人在日常生活中,都有接触到许多例子,应该可以从这些例子经验中,演绎出这些统计规则,但是很少人会发现抽样的原则和回归。统计的原则不是从每天的经验中得来的,因为相关经验不是很恰当的被标示。例如,人们没有发现英文文本中,连续几行中每一行英文单字的平均长度差异,大于连续几页的平均单字长度,这是因为我们在看书时,不会去注意每一行单字的平均长度,也不会去注意某几页单字的平均长度。所以人们不会学到样本大小和抽样变异性之间的相关,虽然这种学习的数据到处都可见。
为什么人们不能在他们的机率判断中侦查到偏见,另一个原因是缺乏恰当的标示。一个人可以用记录实际发生事件的比例来看他给的机率:从正不正确中来学习他的判断有没有外部校准。然而用判断的机率把事件分类是不自然的。在没有分成这些小团体时,一个人是不可能去发现他给予.9或更高的机率,其实只有50%的机率后来是真的。
认知偏见实证的分析,对判断机率的理论和应用都有很大的影响。近代决策理论[24] 认为,主观机率是某个理想化的人的量化意见。尤其是某事件的主观机率是定义为,这样一个人愿意去接受这事件的这组赌注。如果这个人的选择是满足某些特定原则,也就是这个理论的定理,就可以得到内在一致或连贯的主观机率测量。这个得出的机率是主观的,因为不同的人对同一个事件可以有不同的机率。这种研究法主要的贡献在它提供了一个严谨的机率主观解释。这个解释可以应用到独特的事件,而且包含在理性决策的一般理论中。
读者也许该注意,主观机率虽然有时可以从对赌注的偏好中推论出,但它平常并非用这个方式得来的。一个人下注A队而非B队,是因为他认为A队比较可能赢。他不是从他下注的偏好推论出他的信念。所以,在真实世界中,主观机率决定偏好的赌注,而不是从偏好的赌注中得出主观机率。这在理性决策理论中是不言自喻,显而易见的[25]。
机率主观的天性导致很多学生相信,连贯性或内在的一致性是判断机率有效的唯一标准。从主观机率正式理论的观点来看,任何有内在一致性机率的判断都一样好。这个标准并非完全令人满意,因为内在一致的主观机率,可以跟这个人其他的信念不相容。请想一想,一个人对丢铜板赌局所有可能结果的主观机率,其实反映出的是赌徒谬误。也就是说,他对某一次投掷出来是反面的机率,估计会随正面连续出现而增加,这个人的判断可以是内在很有一致性,所以根据正式理论的标准,它被接受为合适的主观机率。然而这些主观机率与一般认为铜板没有记忆的想法不相容,所以没有办法得出非独立事件。判断出的机率要被认为是合适或理性的,只有内在一致性是不够的。这个判断必须跟这个人的整个信念相容才行。不幸的是,对评估判断机率与这个人全部信念系统是否相容,并没有一个简单的正式程序可行。理性的判断者还是会努力去找相容性,即使内在一致性是比较容易达到,也比较容易取得。特别是,他会想办法使他对机率的判断跟他的主题知识、机率规则和他自己判断的捷径和偏见相容。
摘要
本文描述三个在不确定状态下所用的捷径:(1)表征:人们在被要求去判断,某个物体或A事件是否属于B类或B历程的机率时,通常所用的方式;(2)例子或场景的可用性:当人们被要求去评估某一类别的频率,或某一特定发展的可能性时会用到。(3)从锚点所做的调整:通常是人们被要求做数字的预测,而有相关的值在手边时会用到。这些捷径非常省时省事,而且通常很有效。但是它们会导致系统性且可预测的错误。对这些捷径和偏见有更多的了解,会改进在不确定情况下,判断和决策的正确率。
- 这就像许多人认为生了六个女的,第七个应该是男的,不了解每一次的机率是独立事件,当N很大时,男女会各半,小样本则一定会有偏差。

- 不能只看书面报告,要看实际的数字,会作文的人可以巧妙的把真相隐藏在表象之下。

- 表示不是随便敷衍,而是为了得到报酬,有好好在做。

NOTES
- D. Kahneman and A. Tversky, "On the Psychology of Prediction," Psychological Review 80(1973):237-51.

- Ibid.

- Ibid.

- D. Kahneman and A. Tversky, "Subjective Probability:A Judgment of Representativeness," Cognitive Psychology 3(1972):430-54.

- Ibid.

- W. Edwards, "Conservatism in Human Information Processing," in Formal Representation of Human Judgment, ed. B. Kleinmuntz (New York:Wiley,1968), 17-52.

- Kahneman and Tversky, "Subjective Probability."

- A. Tversky and D. Kahneman, "Belief in the Law of Small Numbers," Psychological Bulletin 76(1971):105-10.

- Kahneman and Tversky, "On the Psychology of Prediction."

- Ibid.

- Ibid.

- Ibid.

- A. Tversky and D. Kahneman, "Availability:A Heuristic for Judging Frequency and Probability," Cognitive Psychology 5(1973):207-32.

- Ibid.

- R. C. Galbraith and B. J. Underwood, "Perceived Frequency of Concrete and Abstract Words," Memory&Cognition 1(1973):56-60.

- Tversky and Kahneman, "Availability."

- L. J. Chapman and J. P. Chapman, "Genesis of Popular but Erroneous Psychodiagnostic Observations," Journal of Abnormal Psychology 73(1967):193-204;L. J. Chapman and J. P. Chapman, "Illusory Correlation as an Obstacle to the Use of Valid Psychodiagnostic Signs," Journal of Abnormal Psychology 74(1969):271-80.

- P. Slovic and S. Lichtenstein, "Comparison of Bayesian and Regression Approaches to the Study of Information Processing in Judgment," Organizational Behavior&Human Performance 6(1971):649-744.

- M. Bar-Hillel, "On the Subjective Probability of Compound Events," Organizational Behavior&Human Performance 9(1973):396-406.

- J. Cohen,E. I. Chesnick, and D. Haran, "A Confi rmation of the Inertial-Ψ Eff ect in Sequential Choice and Decision," British Journal of Psychology 63(1972):41-46.

- M. Alpert and H. Raiff a, unpublished manuscript;C. A. Stael von Holstein, "Two Techniques for Assessment of Subjective Probability Distributions:An Experimental Study," Acta Psychologica 35(1971):478-94;R. L. Winkler, "The Assessment of Prior Distributions in Bayesian Analysis," Journal of the American Statistical Association 62(1967):776-800.

- Kahneman and Tversky, "Subjective Probability"; Tversky and Kahneman, "Availability."

- Kahneman and Tversky, "On the Psychology of Prediction"; Tversky and Kahneman, "Belief in the Law of Small Numbers."

- L. J. Savage,The Foundations of Statistics (New York:Wiley, 1954).

- Ibid. ;B.de Finetti, "Probability:Interpretations," in International Encyclopedia of the Social Sciences, ed. D. E. Sills, vol.12 (New York:Macmillan, 1968), 496-505.

附录B 选择,价值和框架
摘要:我们讨论在风险和无风险的情境下,决定选择的认知和心理物理因素。相较于中度机率的事件,机率的心理物理学导致对确定事件和不太可能事件的过度加权。决策的问题可以有很多种方式来描述,或从不同的角度来框架,使达到不同的偏好,这点是与理性选择的不变性标准相违背的。人们组织交易结果的心智会计程序,解释了一些消费者行为的不正常原因,尤其是人们是否接受一个选项,是决定于这个负向结果被解释为成本或损失。本文也讨论了决策价值和经验价值的关系。
做决策就像说话──人人都在做,不论是否知道自己在做。所以,决策这个主题被许多研究领域所探讨,也就不足为奇了,从数学和统计学到经济学和政治学,再到社会学和心理学,大家都在谈如何做决策。决策的研究讨论了规范和描述的问题,规范的分析是谈理性的本质和决策制定的逻辑。相反的,描述的分析是谈人们的信念和偏好,是就它们本身而言,而不是说它们应该是怎么样。这个规范和描述之间的紧张关系是很多判断研究和选择研究的特点。
决策的分析有风险和无风险两种选择。风险下的决策制定最典型的就是赌局的下注,这牵涉到金钱的结果和特定的机率。典型的无风险决策就是交易,也就是货物或服务与金钱或劳力的交换。在本文的第一部分中,我们讨论在有风险情况下,决定风险价值的认知和心理物理因素。在第二部分,我们延伸到交易行为的分析。
*This article was originally presented as a Distinguished Scientific Contributions Award address at the American Psychological Association meeting,August 1983.This work was supported by grant NR 197-058 from the U. S. Office of Naval Research.Originally published in American Psychologist,vol.34,1984.
风险的选择
今天出门要不要带伞,两国要不要开战,是风险的选择,是在没有更多后果知识的情况下,所做的选择。因为这种行动的后果决定于不确定的事件,如气象和对方的决心。一个行动的选择可以看成接受一个赌局,这赌局会带来不同的结果,因为每一个结果的机率是不一样的。所以很自然的,研究风险下的决策制定,就聚焦到有金钱结果的简单赌局和特定机率的赌局,希望这些简单的问题可以让我们看到人们对风险和价值的基本态度。
我们要先描述一个研究风险选择的研究方法,这是从分析人们对金钱的反应和对机率的心理物理选择假设而来的研究法,心理物理学对决策的研究可以追溯到1738年,白努利所发表的一篇论文 (Bernoulli 1954),在那篇论文中,他解释为什么人们一般来说会选择风险规避,以及为什么当财富上升时,风险规避的行为就减少了。为了说明这个风险规避及白努利的分析,请看下面这个选择:有85%机会去赢1,000美元(但是有15%的机会什么都没有),和现在就拿800美元,这是确定的,没有风险的。绝大部分的人会选择确定的800美元,而不要赌一下,虽然赌赢的话,拿的钱更多。金钱赌局的预期是一个加权的平均值,而每一个可能的结果是用它发生的机率来加权。在这例子中,赌局的期望值是0.85×1,000美元+0.15×0美元=850美元,超过确定的800美元。这种偏好确定的获得,就是一个风险规避的例子。一般来说,偏好一个确定的结果而不选择有比较高或相同的期望值的赌局,叫做「风险规避」(risk averse)。拒绝确定的结果,去选择比较低或同样期望值的赌局,就叫做「风险寻求」(risk seeking)。
白努利认为,人们并没有用金钱结果的期望值来评估前景 (prospect),而是用对那些结果的主观价值的预期来决定的。一个赌局的主观价值是加权平均,但现在是每一个结果依其机率来加权的主观价值。为了在这个框架下来解释风险规避,白努利提出一个假设:主观价值或效用是金钱的凹函数 (concave function),在这函数中,200美元和100美元的效用差异大于1,200美元和1,100美元的效用差异。根据这个理论,赢80美元的主观价值大于赢1,000美元的80%价值。因此,效用函数的凹性就解释了:为什么风险规避会使人去偏好800美元的确定结果而不要1,000美元的80%机率,虽然这两案都有相同的金钱期望值。
在决策分析上,一般会把决策的结果用整体财富来表达。例如,给你20美元去赌丢铜板,会用这个人目前的财富W和从W移到W+20美元或W-20美元做选择。这种表达方式显示了心理上的不真实性,人们一般不会用整体财富的状况,来想小小的赌博赌赢结果,而是用赢、输,或是不输不赢来形容赌博的结果。假如有效的主观价值承载者 (carrier) 是财富的改变,而不是我们提议的财富的状态,那么赌局结果的心理物理分析应该是应用到输和赢上,而不是应用到整个资产上,这个假设在对待风险的选择上扮演了重要的核心角色,这是我们称之为展望理论的重点。反思法和心理物理的测量都看到主观的价值是一个获利大小的凹函数。这同样的原理也适用于损失。损失200美元和损失100美元的主观价值差异,比损失1,200美元和损失1,100美元的主观价值差异来得大。当赢和输的价值函数放在一起时,我们得到一个S型的函数,见图1。
图1
图1所显示的价值函数是(a)定义赢和输,而不是全部的财富,(b)在赢面是凹函数,在输面是凸函数,(c)输的曲线斜率比较陡,这一点,我们称之为「损失规避」(loss aversion)。在直觉上,输X美元的感觉是比赢X美元的感觉差(即赢X美元的快乐小于输X美元的懊恼),损失规避解释了,当赢的和输的赌注是一样的时候,人们不愿去赌丢铜板,因为可能赢所带来的吸引力不及可能输所带来的厌恶,这补偿是不足的。例如,在一个以大学生为样本的丢铜板实验中,大部分的大学生不愿意拿出10美元去玩丢铜板的赌局,假如他们赢的收益少于30美元的话。
这个风险规避的假设在经济学原理上扮演了核心的角色。然而,就像赢的价值函数的凹性,说明了风险规避,输的价值函数的凸性,则说明了风险寻求。的确,在输的时候,风险寻求是个很稳健的效应,尤其当输的机率很高时。例如在一个情境中,一个人被迫去选择85%的机会损失1,000美元(15%不输任何钱)或是确定输800美元,绝大部分的人会选择去赌一下。这就是风险寻求,因为预期的赌博结果(-850美元)比确定的损失预期(-800美元)更差。在输面时的风险寻求,已被好几项研究所确定 (Fishburn and Kochenberger 1979;Hershey and Schoemaker 1980;Payne,Laughhunn,and Crum 1980;Slovic,Fischhoff,and Lichtenstein 1982)。它也在非金钱的结果中有观察到,如痛苦的时数 (Eraker and Sox, 1980)和生命的流失 (Fischhoff, 1983;Tversky, 1977;Tversky and Kahneman 1981)。那么,在赢面时风险规避,在输面时风险寻求,是错的吗?这些偏好跟我们对赢和输的主观价值有很强的直觉关系,而人们有权去决定他自己的价值观。不过,我们马上会看到这个S型的价值函数有一个规范上不可接受的含意。
要说明规范 (normative) 议题,我们得从心理学转向决策理论。近代的决策理论可以说是从冯纽曼和摩根史坦开始的 (1947)。他们建立了好几个定性的原理或公理,来说明一个理性的决策制定者的偏好,他们的原理或公理包括「传递」(transitivity,假设A比B讨人喜欢,B比C受人喜欢,那么A比C受人喜欢),和「替代」(substitution,假如A比B受人喜欢,那么得到A或C的机率比得到B或C的机率受人喜欢),以及其他比较技术性的条件。这个理性选择公理已受到广泛讨论,特别是现在有令人信服的证据显示人们并非总是服从替代的公理,对规范的好处也有相当不认同的声音(如Allais and Hagen 1979)。主流派认为假如A的前景在每一个层面都至少跟B一样,或在至少一个层面上比B强,那么应该选A。不变性 (invariance) 要求前景偏好的排序不应受到他们被描述方式的影响,尤其是同一选择问题的两个被认为是一样的版本并排陈列时,它们应该引发同样的偏好,即使在不同的时候呈现。我们现在知道这个不变性的要求,不管多么基本和无害,一般来说,无法被满足。
结果的框架
风险前景的特质来自它们可能的结果,以及这些结果的机率。然而,这同样的选择可以用不同的方式来框架或描述 (Tversky and Kahneman 1981)。例如,一个赌局的结果,可以被框架为赢或输(相对于现状或把初始财富包含进来的资产情况),不变性要求在描述结果的赢或输时,不能改变偏好的次序。下面的问题说明了对这个要求的违逆,每一个问题的反应总和为N;每一个选项的被选百分比,列在该案末尾的括弧中。
问题一 (N=152):想像美国在准备应付一场不寻常的亚洲疾病爆发,专家预期它会杀死600人。他们提出两个对付这个疾病的专案。这两个专案的科学估计如下:
假如采取A案,可以救200人。(72%)
假如采取B案,有三分之一的机会,这600人可以获救,三分之
二的机会没有人获救。(28%)
你会选哪一个?
问题一提供了一个参考点:这个疾病会夺去600人的生命。这两个专案的结果都包括了参考点以及正向陈述(有多少人获救)。正如我们预期的,大部分人偏好风险规避:大部分的人喜欢确定可以救200个人,而不喜欢有三分之一机会救600人的赌局。现在请想像另一个问题,同样的故事,但是不同的描述方式。
问题二 (N=155)
假如采用专案C,400人会死。(22%)
假如采用专案D,在这600人中,有三分之一的机会没人会死,有三分之二的机会600人会死。(78%)
你很容易看出问题二的C和D选项跟问题一的A和B选项,在实质上是完全相同的。但是问题二所假设的偏好(参考点)是没有人死于这个疾病,最好的结果是维持这个偏好情况。但它的陈述是用死于这个疾病的人数来测量损失,用这个方式来评估选项时,大部分人会采取风险寻求,也就是选D而不会选C,因为不愿400人确定会死亡。的确,实验结果显示:在问题二中,人们采取风险寻求,不像问题一中,人们采取风险规避。
这个不变性的失败,非常的普遍且效应很强。即使在有经验、受过统计训练的专家中也是如此。而且它很难去除,即使给同一个人,相隔几分钟,做这两个问题,结果仍然一样。受试者的反应很令人困惑,即使在重新读这两个问题后,他们仍然希望在「拯救生命」版本中采取风险规避,在「失去生命」的版本中采取风险寻求。他们也希望服从不变性,对这两个版本给出一致性的答案。在他们的倔强中,框架效应比较像知觉的错觉,而不像计算的错误。
下面这两个问题所引发的偏好,违逆了理性选择的主流要求:
问题三 (N=86),请选择:
E.25%机会去赢240美元,75%机会输760美元。(0%)
F.25%机会去赢250美元,75%机会输750美元。(100%)
你很容易看到F是主控,的确,所有的受试者都选了F。
问题四 (N=150),想像你面对下列并列的决策,
先检视两个决策,然后说明你的偏好。
决策(1),请选择:
A:确定拿到240美元。(84%)
B:25%机会赢1,000美元,75%机会什么都没得到。(16%) 决策(2),请选择:
C:确定输750美元。(13%)
D:75%机会输1,000美元,25%机会什么都不输。(87%)
从前面的分析中,我们预期大部分的人在第一个决策中会风险规避,而选择确定的240美元,不愿去赌,而在第二个决策中,有更多的人愿意去风险寻求,而不愿选择一定输的750美元。事实上,有73%的受试者选A和D,只有3%选B和C。这同样的反应型态在修改过的版本中也一样看到,我们降低了赌注,大学部学生选择了他们可以真的玩的赌局。
因为受试者是同时看到两个选择,他们还是选了A和D,而没有选B和C。这个复合的偏好其实是因为拒绝B和C的关系。若增加「确定拿到240美元」(选项A)的陈述到D选项中,会得到25%的机会赢240美元、75%机会输760美元的结果,这正是问题三中E的选项。同样的,若增加「确定输750美元」(选项C)到B选项中,可得到25%机会赢250美元、75%机会输750美元的结果,这正是问题三中的F选项。所以框架的易接受度和S型价值函数在同时并列的决策问题中,产生了违逆主流的情形。
这个结果令人不安,不变性是规范教条的核心,但是在直觉上和心理上不可行。的确,我们只看到两个方法可以确保不变性。第一是采取可以转变任何问题到同样典范表征的版本的程序。这个是给商学院学生标准训诫的理由,他们应该用全部资产去考虑每一个问题的决策,而不是用输和赢去想 (Schlaifer 1959)。这种方式可避免前面问题中出现的违逆不变性的现象。但是给忠告比去执行来得容易,除了在可能毁灭的情境中,考虑赢和输往往比考虑财富状态自然得多。此外,风险前景的典范表征需要把所有并列决策的结果综合起来看(如问题四),这即使在简单的问题中,都超越了直觉计算的能力。在别的情境,如安全、健康或生活品质,就更难了。我们应该劝告人们用疾病的整体死亡率,或是用跟这疾病有关的死亡人数做标准,去评估公共卫生政策(如问题一和二)的结果吗?
另一个可以保证不变异的方法是用他们实际精算的,而不是心理上的后果来评估选项。精算的标准对人的生活情境有些吸引力,但它很明显的不适用在财务的选择上,至少自白努利以来,一般都是这样认为的。它完全不适用于没有客观测量的结果上。我们下结论说,框架的不变性不可能成立,在某个选择上的信心并不能保证这个选择在另一个框架下会被选择。因此,用不同的框架去测试决策问题偏好的强度,是一个很好的方式 (Fischhoff,Slovic, and Lichtenstein 1980)。
机率的心理物理学
到现在为止,我们的讨论都是假设白努利的预期规则是来自增加可能结果的效用,每一个效用依它的机率而加权。要检视这个假设,让我们再来看一下心理物理的直觉会怎么说。把目前的价值设为零,假设有一个现金礼物300美元,你给它价值为1。现在再想像你有一张乐透彩券,它的奖金也是300美元。这张彩券的价值如何依赢的机率的函数而变?它的价值应是从零(当赢的机率是零)到1(当赢300美元是确定的)。
直觉告诉你,这张彩券的价值不是一个赢的机率的线性函数,如预期规则所示,尤其是从0%到5%的增加效果比30%到35%的增加效果大,而30%到35%的增加效果又比从95%增加到100%的效果小。这些情况显示了一个类别边界的效应 (category-boundary effect):从不可能到可能的改变或是从不可能到确定的改变,它的效应大于量表中间相同差距的改变。这个假设被纳入图2的曲线中,它把每一个事件的加权画成它数值机率的函数图。
图2最显著的特质就是决策的加权依所呈现的机率而回归。除了两端之外,增加0.05赢的机率所增加的前景价值,不到奖金价值的5%。我们下面来看一下在风险选项中,对偏好的心理物理假设。
在图2中,决策的加权就整个来说,是低于相对应的机率。对确定事项在中高机率的低加权,使受试者风险规避,因为它减少了正向赌局的吸引力。同样的效果在输的时候,使受试者去做风险寻求,因为它减轻了负向赌局的厌恶感。然而,低机率是被过度加权的,使得决策的加权在那个区域非常的不稳定。低机率的过度加权逆转了上面描述的形态:它加强了长期的价值,放大了严重损失的规避效应,虽然这机率很小。因此,人们在处理不太可能的赢局时会进行风险寻求,在处理不太可能的损失时,会采行风险规避。所以,决策加权的特质使得彩券和保险单变得有吸引力。这个非线性的决策加权,无可避免的,一定会导致不变性的违逆,这可从下面这两个问题中看出:
图2 一个假设的加权函数
问题五 (N=85):请看下面这个二阶段的赌局,在第一阶段,有75%的机会去结束赌局而没有赢任何东西,有25%机会进入第二阶段,假如你进入了第二阶段,你可以选择:
A:一定赢30美元。(74%)
B:80%机率赢45美元。(26%)
你的选择必须在赌局开始前决定,也就是说,在第一阶段的结果揭晓前,必须表示你的偏好。
问题六 (N=81):下面哪一个你比较喜欢?
C:25%机会去赢30美元。(42%)
D:20%机会去赢45美元。(58%)。
因为在问题五中,有四分之一的机会进入第二阶段,A案有0.25机率赢30美元,而B案是0.25×0.8=0.20机率赢45美元。问题五和问题六因此在机率和结果上是一模一样的,然而,受试者的偏好却不一样,在问题五中,绝大多数人喜欢比较高的机率去赢比较少的钱,但是在问题六中就倒过来了。这个不变性的违逆在真的赢钱和假设的赢钱情况下,都被证实了(目前这个实验是用真的钱);在以人的生命为结果,以及没有序列关系的机会历程中,也都得到证实。
我们把不变性的失败归因到两个因素上:问题的框架和非线性的决策加权。在问题五,人们忽略第一阶段,因为不论决策是什么,它的结果是相同的,他们把注意力集中到假如你们到达第二阶段后会怎样,当然,在那种情况下,他们选A就有确定的获利,假如想赌,也有80%的机率赢。的确,在这序列的版本下,人们的选择跟「在确定拿30美元与80%赢45美元之间做选择」是相同的,因为确定的事是有加权。在跟「在图2中间到高机率相比,这个可能会赢到30美元的选择」在这序列的版本中,就比较有吸引力,我们把这个现象叫做假确定效应 (pseudo-certainty effect),因为一个其实是不确定的事件,把它当作确定事件加权了。
一个很类似的现象可以在机率范围的低端显现出来,假设你不能决定要不要去买地震保险,因为保费很高,在你犹疑时,你的保险公司友善的经纪人给了你另一个保法:你可以用原来一半的保费去买全额的保险,假如地震发生在单日的话,你就会获赔。这是一个很好的条件,因为只花一半的钱而你被保了比一半还多的天数,「为什么大部分的人觉得这个保险不吸引人?」图2给你了答案,在低机率的任何一点,把机率从P减到P/2的决策加权,比从P/2到0减少的风险小很多。减少一半的风险并不值得一半的保费。
对机率保险的规避有三个原因,第一,在凹效用函数上,它破坏保险的古典解释;根据预期的效用理论,当正常的保险是可接受的,机率保险应该绝对是偏向正常的保险(见Kahneman and Tversky 1979)。第二,机率保险代表了许多保护行为的形式,如健康检查、买新的轮胎、或装防盗警铃系统。这种行为,一般来说,是减少危险发生的机率而不是全部消灭它。第三,保单的可接受度可以用应变框架 (framing of the contingency) 来操弄。一张保火险而没有保水灾险的保单,可以被看成对某个特定风险的完全保险(即火),或是看成财产损失总机率的减少。图2显示人们大大低估了危险机率的减低,这是对比于完全消除这个危险而言。所以,假如把保险框成消除风险,而不是把它描述成减少风险,保险会看起来比较有吸引力。的确,Slovic、Fischhoff和Lichtenstein (1982) 显示一种假设的疫苗可以减低感染到这个疾病的机率,把感染率从20%降到10%,但这对民众并没有多大的吸引力;假如它可以被描述为在一半的个案有效,那么它就会比前者更有吸引力。
表述效应
到现在为止,我们已经讨论了框架,把它当作工具来呈现不变性的失败。我们现在把注意力转到控制结果和事件的框架的历程。公共卫生的问题说明了表述效应在那里,只要改变说法,把「拯救生命」换成「失去生命」,就会引发完全不同的偏好,从风险规避转到风险寻求。很明显的,受试者用问题所给予的结果描述来评估结果,把它当成得或失。另一个表述效应是McNeil、Pauker、Sox和Tversky (1982) 发现的,他们发现医生和病人对肺癌假设的治疗法这个问题的结果,是被描述成死亡率或存活率时,有很大的差别。外科手术不像放射治疗法,在治疗时是有危险,可能会丧命的,因此,手术的选项相较之下,就比较没有吸引力,尤其把治疗的结果用死亡率而不是用存活率来表达的时候。
一个医生,或许总统的顾问也是,会影响病人或总统的决策,他们不必扭曲或压抑讯息,只要框架结果和应变计划的方式不同,就能造成改变了。表述效应可以在没有人知觉这个框架对最后决策的影响下,偶然的发生。它们也可以特意去操弄相关选项的吸引力。例如,瑟勒 (1980) 注意到信用卡公司的国会游说人员,坚持把现金购买和信用卡购买价钱上的差异叫成「现金折扣」,而不是「刷卡费」。这两个标签把价钱框成不一样,一个是得,一个是失,看它是把低的或是高的当作正常的价钱。因为损失的感觉比赚得的感觉大很多倍,消费者比较不会去接受刷卡多加的费用,而会去用折扣。就如我们预期的,市场和政治人物常用框架来影响消费者和老百姓[1]。
结果的评估会受到表述效应的影响,因为价值函数是非线性的,以及人们会用题目给的、或是题目暗示的参考点来评估选项。值得注意的一点是,在其他的情境里,人们会把相同的讯息自动转换成同样的表征,语言理解的研究显示人们很快的把他们所学的重新登录成抽象的表征,转换后,我们就不再知道这个想法是主动的还是被动形式,也不再知道它当时是怎么说的,只知道当时那些话的意思是暗示的说、假设性的说,或含蓄的说 (Clark and Clark 1977) [2]。不幸的是,表现这些操作的心智机器是无声的,不费力的,所以它们不适合去把公共卫生问题的两个版本重新登录之事,或把死亡率、存活率的统计数字重新登录到一般抽象形式的工作。
交易和贸易
我们对框架的分析和价值的分析,可以延伸到多重属性选项的选择,如一个交易的可接受度。我们提出,为了要评估一个多重属性的选项,应一个人建立一个心智的帐户;根据多重属性的参考点,专门来登记这个选项是优点还是缺点。这个选项整个的价值,可以从它的优点和缺点与参考点相比较就知道了。所以假如它优点的价值超越它缺点的价值,那么这个选项是可以接受的,这个分析是假设心理上我们可以区分开优点和缺点,这个模式没有规范分开的属性用什么方法组合成一个整体的测量去评估优点和缺点,但是它把凹性和损失规避加到测量的假设上。
我们对心智会计的分析要感谢瑟勒 (1980, 1985) 非常有激发性的研究,他让我们在消费者的行为上看到这个相关。下面这个问题是改自沙维克 (1954) 和瑟勒 (1980) 的例子,它介绍了控管心智帐户和会计建构的一些规则,说明了价值函数的凹性延伸到交易的可接受度。
问题七:想像你要买一件125美元的外套,和一个15美元的计算机。计算机的售货员告诉你,你要买的计算机在别的分店正好减价,只要10美元就可买到。这分店只在开车20分钟车程的地方,你会去另外一家店买吗?
这个问题讨论的是选项的接受度,这个选项的缺点是不方便,要另外开车去,好处是它可以省5美元,但是它是好和坏都组合在一起了。这个问题可以有三个方式来框它:最低额 (minimal)、主题的 (topical) 和综合的 (comprehensive) 帐户。最低额帐户包括两个选项的差异,不必管它们共同的特质。在最低额帐户中,开车去到另一家分店的好处是框成可以赚5美元。主题的帐户是把选择的结果跟参考点相比,由情境来决定,在这例子中,相关的主题是买计算机,以及这一趟的好处是被框成价钱的减低,从15美元减为10美元。因为节省下来的百分比只有跟计算机有联结,外套的价钱是没有包括在主题的户头内的。外套的价格以及其他的花费可以包括在比较综合性的帐户中,它所省下的钱,是跟每个月的家用开销来相比的。
前面例子的表述,对采用最低额、主题式或综合帐户的人来说是中性的,然而,我们认为人们会自动用主题式帐户方式去框架问题,主题式在决策制定上扮演了重要角色,它类似在知觉中的「好的形状」(good form) 或是在认知中基本的类别。主题式的组织,结合价值的凹性,就使这个人愿意开20分钟车子去省5块钱,这个决定也跟外套的价钱无关。为了测试这个预测,我们把这个问题修改了一下,使外套和计算机的钱可以互换,计算机在第一家店是125美元,在另一家是120美元,外套是15美元,如我们所预期的,愿意开20分钟去省5美元的人数大大降低。有68%的人 (N=88) 在计算机是15美元时,愿意开车去另一家店,省5美元,但是在计算机是125美元时,只有29%的人愿意开20分钟,就为了省125美元计算机的5美元。这个发现支持了主题式的帐户组织,因为两个问题在最低额和综合帐户上是一模一样的。
主题式帐户对消费者行为最显著的地方是它确定了我们的观察──同一城市中,不同店家对同一物品的标价的标准差,与那个物品的平均价格成正比 (Pratt, Wise, and Zeckhauser 1979)。由于价钱的分散是控制在消费者努力要买到最便宜、最好的物品 (the best buy),这些结果显示,消费者在150美元的商品上,几乎不愿意花力气去省个15美元,但是在50美元的商品上,他们却愿意花同等的力气去省了5美元。
这个主题式的组织心智帐户方式,导致人们用输和赢相对的标准来评估事情,而不是用绝对的标准,这个结果在交易上有很大的变异性,例如打很多的电话只为了找到最便宜的一家,或愿意开几十哩路去买便宜货。大部分的消费者觉得买车子的音响设备或是买波斯地毡,跟买车子和买房子比起来,是件很容易的事,但是单独抽出情境,没有比较点时,就不见得容易了。这些观察,当然与标准理性主义的消费者行为是不符的,理性主义假设不变性,不承认心智帐户的效应。
下面的问题,说明了另一个主题的帐户组织把价钱或成本贴在心智帐户上的例子。
问题八 (N=200):想像你想去看戏,已经花钱买了票,一张10美元,当你去到戏院要进场时,突然发现你的票不见了,你不记得座位号码,你找不到票。
请问,你会花10美元再买一张票吗?
会 (46%) 不会 (54%)
问题九 (N=183):想像你想去看戏,一张票是10美元,当你到达戏院时,你发现身上的10美元不见了。
请问你还是会再花10美元去买一张票吗?
会(88%) 不会 (12%)
这两个问题的两个不同反应很有意思。为什么这么多人在票丢掉了以后,不愿再花10美元去买票?为什么在丢掉同样的现金后,却愿意再花10美元去买一张票?我们把差异归因到主题式组织的心智帐户上。去看戏一般来说是个交易,花钱买票,交换坐在剧院中看戏的权利,买第二张票会增加看戏成本,对很多人来说,这是不可接受的。相反的,丢掉现金这件事不会贴到看戏这个帐户上,它只是使这个人觉得少富裕一点罢了。
有一件很有趣的事,就是当我们把这个问题的两个版本都给同一个受试者看时,他愿意再买一张票去替代丢掉的票的意愿增高了,因为后面跟着的是失去现金的版本。相反的,愿意在失去现金后再去买票的人并未受到问题八的影响。并列这两个问题,显然使受试者了解,把丢掉票想成丢掉现金是合理的,但是反之却不亦然。
心智帐户效应的规范地位会有问题。它不像前面的例子,如公共卫生问题,计算机问题和戏票问题这两个版本只有在形式上不同,你也可以说它们在实质上也有不同。尤其,15美元的东西省了5美元,它带给你的快乐超过了比较大额的交易。而买同一张票却付了两次的钱,心中的懊恼也是大于丢掉10块钱。后悔、挫折和自我满意,也可以被框架所影响 (Kahneman and Tversky 1982)。假如这种次级后果是合法的,那么观察到的偏好就没有违逆不变性标准,就不能把它排除,说它是不一致或是错误。从另一方面来说,次级后果在反思后可能会改变。假如消费者发现她不必花同样的力气,就可以在200美元的物品上省10美元,那么,在15美元的东西上省了5美元的满意度可能会有点损伤。我们并不希望去建议,任何两个有着同样后果的决策问题都应该用同样的方法去解决。不过我们建议,系统化的检查另一个说法的框架,会带给你一个有用的反思工具,帮助你去评估这选择的价值是应该贴附到主要的还是次级的后果上。
损失和成本
许多决策的问题都是以保持现状或是接受另一版本的形式呈现。这有好有坏。前面单一向度风险的价值分析可以延伸到这里来,只要假设:现状就是所有属性的参考点。那么,另一选项的优点就是被看成「得」,它们的劣点就是「失」。由于「失」放大得比「得」大,决策者会偏向维持现状。
瑟勒 (1980) 创造了一个名词叫「禀赋效应」,来描述人们不情愿与他们的资产分开,当放弃这个资产的痛苦大于得到的喜悦时,买价会比卖价低很多。也就是说,一个人愿意买这份资产的最高价钱,会比让这个人放弃这份资产所得到的最低补偿,小很多。瑟勒用消费者和创投者的行为来解释这个现象。好几个研究都报告买价和卖价在假设性和真实的交易上有很大的差异 (Gregory 1983;Hammack and Brown 1974;Knetsch and Sinden 1984)。这些结果对标准经济理论来说是个挑战,因为这个理论认为,撇开交易的成本和财富的效应,买价和卖价应该一样。我们同时也在不同周薪 (S) 和不同工作场所温度 (T) 的假设性工作上,看到受试者不愿交换的现象。我们要求受试者去想像他们有一份工作 (S1,T1),老板给他选择,他可以换到不同的部门 (S2,T2),但是新工作有一个层面很好,另一个层面不好。我们发现大部分分配到 (S1,T1) 的受试者不愿换到 (S1,T1) 去。大部分早先被分配到 (S2,T2) 的也不愿换到 (S1,T1)。显然,薪水和工作条件的同样差别在缺点上被放得比优点大。
一般来说,损失规避使人喜欢稳定,不喜欢改变。想像两个一样快乐的同卵双胞胎,发现有两个环境一样的吸引人,再想像造化弄人,这两个双胞胎被放到两个不同的环境去了,当他们采用新环境做为参考点去评估彼此环境的优点和缺点时,这两个双胞胎就不再对这两个地方无动于衷,他们会喜欢留在他们现在所处的地方。所以,偏好的不稳定性会产生对稳定性的偏好,除了喜欢稳定、不喜欢改变之外,适应和损失规避两者结合起来会提供有限的保护来对抗悔恨和羡慕,因为它减低了过去的选项的吸引力和其他人拥有的东西的吸引力。
损失规避和禀赋效应的后果,不太可能在例行公事的经济交换上扮演什么重要的角色。例如,商店的老板不会觉得付钱给供应商是个损失,而从顾客手上接过来的钱是获利。这个商人会把成本和收益加上去,过了一段时间后,再来看收支有没有平衡。在评估之前,收和支是先互相抵消掉才来看最后的所得。消费者付出去的钱也不是看成损失,而是买卖。根据标准经济学分析,钱是很自然的看成商品和服务的代表,是可以买的。这个评估的方式是外显的,任何人都可以说,「我要买一台新的相机」,或是「买一顶新的营帐」。在这个分析里,此人会去买照相机,假如照相机的主观价值超越买照相机的钱的价值。
在某些情况,缺点可以被框架为成本或损失。尤其是买保险,它可以被框架成一个确定损失和更大损失的风险两者中间的选择。在这情况下,成本-损失的差异会导致不变性的失败,请看这个例子,一个确定的损失是50美元,另一个是有25%的机会损失200美元,Slovic、Fischhoff和Lichtenstein (1982) 报告有80%的受试者选择去赌一下机率,他们进行风险寻求。然而,只有35%的受试者拒绝去付50美元的保险费,宁可去面对25%的风险输200美元。同样的效果也在Schoemaker和Kunreuther (1979) 及Hershey和Schoemaker (1980) 的研究上看到。我们认为同样数量的钱在第一个例子中是被框架成不可补偿的损失,但是在第二个例子中它被框架为保护的成本。在这两个例子中,偏好被倒过来了,因为损失比成本更令人想要规避。
我们在正向的领域也观察到同样的效应,请看下面的问题:
问题十:你会接受一个赌局,它有10%赢95美元,90%的机会输5美元?
问题十一:你会花5美元去买一张彩券,它有10%的机会赢100美元,90%的机会什么都没赢?
有132名大学部学生回答了上述两个问题,这两个问题呈现时是被其他问题隔开的。有一半的学生是先看问题十一再看问题十。虽然这两个问题在客观的选项上完全相同,55%的学生对这两个版本却有不同的偏好。在他们之间,有42%的人拒绝赌博,但是愿意买问题十一的彩券。这些看起来没有什么重要性的操作非常有效,说明了成本-损失中间的差异和框架的力量。把5美元想成付款,就使买彩券这件事,比把它想成损失更能接受了。
前面的分析暗示一个人的主观状态可以用框架的方式来改变,把负向结果框成成本,就比它是损失更能接受。这个心理操作可以解释两个行为上的两难,这叫做「完全损失效应」(dead-loss effect),瑟勒 (1980) 讨论一个例子,一个人在加入网球俱乐部不久,患了网球肘,但是他继续去打网球,因为他不愿浪费那么贵的俱乐部会员会费。假设这个人没有付会费,他就不会去打。问题就出来了,怎么可能忍痛去打,会改善一个人的损失?我们认为,痛苦的打球以维持会员资格是成本,假如他不去打了,他被迫承认会费是完全损失,这可能比他忍痛在打更痛苦。
结论
效用和价值的概念在两个不同的情况下,常常被用到:(a)经验的价值,快乐和痛苦的程度,感受到结果的满意和生气;以及(b)决策价值,一个预期的结果对整个选项的吸引力和规避的作用。这个差异在决策理论上很少明显的表示出来,因为它默认决策价值和经验价值是同样的,这个假设有一部分来自人是理性的。理想的决策制定者是个概念,他能够非常准确的去预测未来的经验,而且正确的评估选项。然而,对一般的决策者来说,经验价值和决策价值离完美远得很,它常是不正确的,有差异的 (March 1978)。有些影响经验的因素并不是很容易可以预期,而有些影响决策的因素对经验的结果也没有同样的效力。
跟相当多决策研究相反的是,很少人有系统的去探索心理物理学上,快乐经验对客观状态的影响。快乐心理物理学最基本的困难是去区分正向和负向结果的适应或激发程度,快乐的参考点很大一部分决定于客观的现况,但是它同时也受到预期和社会比较的影响。一个客观的进步可以经验成损失,例如当一个职员的加薪比办公室其他人的调薪少的时候。跟随着情况而改变的快乐或痛苦的经验,也与快乐适应的动态有密切相关。Brickman和Campbell (1971) 的快乐像个跑步机 (treadmill) 的概念,就提出一个大胆的假设:快速的适应快乐,会使任何客观改进的效果短命。快乐经验的复杂度和微妙性,使决策者很难去预期结果会产生什么样的实际经验。许多人在肚子很饿时所点的餐,后来都很后悔,因为当第五道菜端上来时,他已经吃不下了。决策价值和经验价值之间的不配合,在许多决策问题上增加了不确定的元素。
框架效应的普遍性和违逆不变性,更加复杂化了决策价值和经验价值之间的关系。结果的框架方式常常影响决策的制定,使决策价值没有相对应的经验来支持。例如,把肺癌治疗的结果用死亡率或存活率来框架,就不太可能影响经验,虽然它对选择有很重大的影响。不过,在别的个案里,决策的框架不但会影响决策,同时也影响经验。例如把一项开支框成一项不可弥补的损失,或框成保险的价钱,都可能影响那个结果的经验。在这种情况下,在做决定的情境下,评估结果不但预期了经验,同时也改变了经验。
- 这个差异的确非常的显著,1969年我去美国读书时,汽油一加仑是29美分,所以没有人在乎是用现金或信用卡,后来汽油贵了,大家身上不习惯带现金,就开始用信用卡,但是信用卡要加手续费,就有人为了加油特地去上银行,因此信用卡公司才坚持要用现金折扣,而不肯用信用卡手续费。

- 这是如果没有录音,毁谤罪很难成立的原因。因为中文的同义词很多,当别人说你漂亮时,你只知道他说你好看,但是究竟是用美丽还是漂亮,你就分不清了。

Reference
- Allais, M., and O.Hagen, eds. 1979. Expected Utility Hypotheses and the Allais Paradox. Hingham, MA:D. Reidel.
- Bernoulli, D. 1954 [1738]. "Exposition of a New Theory on the Measurement of Risk." Econometrica 22:23-36.
- Brickman, P., and D.T. Campbell. 1971. "Hedonic Relativism and Planning the Good Society." In Adaptation Level Theory:A Symposium, ed. M. H. Appley. New York:Academic Press, 287-302.
- Clark, H. H., and E. V. Clark. 1977. Psychology and Language.New York:Harcourt.
- Erakar, S. E., and H. C. Sox. 1981. "Assessment of Patients'Preferences for Therapeutic Outcomes." Medical Decision Making 1:29-39.
- Fischhoff, B. 1983. "Predicting Frames." Journal of Experimental Psychology:Learning, Memory and Cognition 9:103-16.
- Fischhoff, B.,P. Slovic, and S. Lichtenstein.1980. "Knowing What You Want:Measuring Labile Values." In Cognitive Processes in Choice and Decision Behavior, ed. T. Wallsten. Hillsdale, NJ:Erlbaum, 117-41.
- Fishburn, P. C., and G. A. Kochenberger. 1979. "Two-Piece von Neumann-Morgenstern Utility Functions." Decision Sciences 10:503-18.
- Gregory, R. 1983. "Measures of Consumer's Surplus:Reasons for the Disparity in Observed Values." Unpublished manuscript, Keene State College, Keene, NH.
- Hammack, J., and G. M. Brown Jr. 1974. Waterfowl and Wetlands:Toward Bioeconomic Analysis.Baltimore:Johns Hopkins University Press.
- Hershey, J. C., and P. J. H. Schoemaker. 1980. "Risk Taking and Problem Context in the Domain of Losses:An Expected- Utility Analysis." Journal of Risk and Insurance 47:111-32.
- Kahneman, D., and A. Tversky. 1979. "Prospect Theory:An Analysis of Decision under Risk." Econometrica 47:263-91.
- —.1982. "The Simulation Heuristic." In Judgment Under Uncertainty:Heuristics and Biases, ed. D. Kahneman, P. Slovic, and A. Tversky. New York:Cambridge University Press,201-208.
- Knetsch, J., and J. Sinden. 1984. "Willingness to Pay and Compensation Demanded:Experimental Evidence of an Unexpected Disparity in Measures of Value." Quarterly Journal of Economics 99:507-21.
- March, J. G. 1978. "Bounded Rationality,Ambiguity,and the Engineering of Choice." Bell Journal of Economics 9:587-608.
- McNeil, B., S. Pauker, H. Sox Jr., and A. Tversky. 1982. "On the Elicitation of Preferences for Alternative Therapies." New England Journal of Medicine 306:1259-62.
- Payne, J. W.,D. J. Laughhunn, and R. Crum. 1980. "Translation of Gambles and Aspiration Level Effects in Risky Choice Behavior." Management Science 26:1039-60.
- Pratt, J. W.,D. Wise, and R. Zeckhauser. 1979. "Price Diff erences in Almost Competitive Markets." Quarterly Journal of Economics 93:189-211.
- Savage, L. J. 1954. The Foundation of Statistics. New York:Wiley.
- Schlaifer, R. 1959. Probability and Statistics for Business Decisions. New York:McGraw-Hill.
- Schoemaker, P.J.H., and H. C. Kunreuther. 1979. "An Experimental Study of Insurance Decisions." Journal of Risk and Insurance 46:603-18.
- Slovic, P.,B. Fischhoff, and S. Lichtenstein.1982. "Response Mode,Framing,and Information-Processing Effects in Risk Assessment." In New Directions for Methodology of Social and Behavioral Science:Question Framing and Response Consistency, ed. R. Hogarth.San Francisco:Jossey-Bass, 21-36.
- Thaler, R. 1980. "Toward a Positive Theory of Consumer Choice." Journal of Economic Behavior and Organization 1:39-60.
- —.1985. "Using Mental Accounting in a Theory of Consumer Behavior." Marketing Science 4:199-214.
- Tversky, A. 1977. "On the Elicitation of Preferences:Descriptive and Prescriptive Considerations."
- In Conflicting Objectives in Decisions,ed. D. Bell,R. L. Kenney, and H. Raiff a. New York:Wiley, 209-22.
- Tversky, A.,and D. Kahneman. 1981. "The Framing of Decisions and the Psychology of Choice." Science 211:453-58. von Neumann, J.,and O. Morgenstern. 1947.
- von Neumann, J., and O. Morgenstern. 1947.Theory of Games and Economic Behavior, 2nd ed. Princeton:Princeton University Press