心理测试:当娱乐遇上科学

作者:小如如果你的面前有一个婴儿,你想首先摸他的哪个部位?选项包括脸颊、手、脚丫和肚子。“肚子。”“你的恋爱可能会谨慎过度,导致进展速度缓慢得像乌龟。”这情节你...


作者:小如

如果你的面前有一个婴儿,你想首先摸他的哪个部位?选项包括脸颊、手、脚丫和肚子。

“肚子。”

“你的恋爱可能会谨慎过度,导致进展速度缓慢得像乌龟。”

这情节你我都不陌生。时下,五花八门的心理测试题遍布我们的生活,各种心理报刊、娱乐杂志附送的小别册、社交网站上的投票活动、或是门户网站上跳出来的网络对话框,它们在问你:“呶,你选哪个?”

很多人也乐于做各种各样的心理测试以消遣。从主题到选项五花八门,你尽可以把婴儿的肚子换成其他各种禽鸟或走兽,甚至一把水壶、一盏台灯或一只花瓶。揭晓的答案有时在意料之外,有时又在意料之中,它不声不响、却权威般地为你总结:

因为选择了一组数字“7105”,它认为我想结婚,甚至,我选择从陌生的吉普赛人手中抽取一张红心扑克牌,它告诉我:我未来的伴侣是位比我年长的辣妹!

我们都是测试狂

“测测你是《奋斗》里面的谁?”中科院心理研究所的一间办公室里,黄端坐在电脑前,点开页面。《奋斗》是时下正红的一部青春偶像剧,剧中有不少外形抢眼又个性十足的年轻人。

依次答完了包括“作为前男友/女友,你还会去他家喝可乐吗?”“你买股票赔了还是赚了”在内的15道题,回车,结果出来了:“华子”(剧中角色之一,对朋友极尽宽容的男孩)。更详尽的分析是:“你这样的人经常从一个避难所逃到另外一个避难所,总是被命运推着走,回头又不能接受命运。”

作为心理测量专业的博士生,黄端坦言遇到这类题目也会忍不住做做看,权当放松。一位写手曾这样形容趣味性的心理测验:“如果说这些题目也像一次考试,那考官下发考卷时就需要声明——这不算真实成绩。”

海衣(网名)一直强调这些心理测试的娱乐价值,这篇人气颇高的“《奋斗》测试”正是出自她手。海衣是新浪星座频道的特约作者,不过,她更愿意将自己比作一位设计游戏的工程师:“我的设计,是为让大家尽情欢乐。”

海衣把趣味性的心理测试和专业测试比做可乐和感冒糖浆——都是水质,可以解渴,但后者具有医疗效用,而前者主要用来满足感官享受——而可口可乐最初也是由感冒糖浆衍生来的。一百多年前,美国一家生产感冒糖浆的药房中,糖浆里被误加进了苏打水,结果诞生了一种可口的碳酸饮料,这便是日后风靡全球的可口可乐。

一个流传甚广的治感冒偏方是“可乐煮姜”,很多人觉得效果不错——同样,趣味性的测试题目中,也能窥到些专业测试的影子。虽然只是游戏,海衣和她的同仁依然用心,如果读者反馈不佳,她们会集体研究,对题目和分数段的设置进行修改。“可乐可能也有一些相关疗效,但更多还是满足人的感官享受。我很清楚这一定位,并没有把可口可乐当成果感冒药来卖。”

除非有心理学的教育背景,我们一般称之为“心理测试”或“小测验”,少有人会提起“心理测量”这个看起来更专业的名称。但在黄端看来,“心理测量”和“心理测试”不过是名称不同,日常所见的趣味性测试,确切地说正是心理测量的一种——“人格测量”。

一份测试可不可靠,要以“信度”来衡量。信度即多次(至少相隔两周以上)进行同一测试,所到结果的一致程度。比如上面的“摸婴儿”,就像一份“恋爱速度量表”,不同选项代表答题人在“慢——快”这一维度上的差异。但这份量表的信度有待商酌——假如某人选择“摸婴儿肚子”,两周后再来,也许就凭着一时心情摸了婴儿的“脸颊”或“小手”,如此,测试的信度便不理想。

除了信度,效度是另一个衡量测验的指标。在黄端看来,就像量长度要用尺、称体重要用秤,然而,假如用尺子测体重,效度自然不佳——除非进行了成千上万次的试测和修订,谁能证明“摸婴儿的肚子”和“恋爱速度缓慢”有什么必然的联系呢?

趣味V.S专业

不过,所谓的“恋爱速度量表”也不过是一份调侃罢了。事实上,一套合格的量表至少应包含5个条目(5道题目),或者题目涉及的每个维度至少包含3个条目。

“心理测量不可能根据一个题目就下结论。”北京师范大学心理学系张厚粲教授认为趣味性测试终归不是科学的心理测验。“一套测验从编题开始,需经过取样,试测,修改,数据计算,制定常模等一系列手续,再按心理测量学原理和统计方法技术检验其信度、效度等指标——那是很复杂的工作。”

上世纪40年代,美国明尼苏达大学的S·R·哈萨维和J·C·麦金利编制了一份量表,以区分精神疾病患者于普通人,这便是著名的“明尼苏达多相人格测验”,简称“MMPI”,这份包含了500多道题目的问卷流传使用至今,已经历了5次完善。七十年代末,我国开始对MMPI进行研究并修订,形成了一个中国版本。

在其中一个老版本中,包括“我早起的时候,多半觉得睡眠充足、头脑清醒”、“我每个星期都要拉一、两次肚子”,甚至“有时我真想摔东西”、“我想当一名歌唱家”,这些条目都来自初期心理学家对社会各个阶层的走访,以开放式访谈为主,收集并汇总来的信息,确定下基本的项目库(题库),而后选取对象进行第一次试测。

第一次试测很重要。若将题目的编制比做雕刻,那么第一次试测相当于大刀阔斧的“凿”。对几百人试测后,会删除一些有缺陷的项目,比如很多人不回答,或得分比较集中、区分度不理想的题目。经过第一次的试测,一套问卷便初具形态。

而后,用统计软件进行因素分析,探索出问卷中待测的维度。上世纪80年代,美国著名心理学家Costa和McCrae提出了“大五人格模型”。在这套被众多心理学家公认为最有前途的人格描述模型中,研究者从语言学的角度将所有描绘人的词汇聚类分析,并在此基础上划分出5个维度因素:外向性,情绪稳定性,宜人性,责任性,开放性,像开朗或沉闷就可被归入“内向——外向”这一维度。

接下来便是修订——试测——修订的循环,直到各维度上的得分合乎数学上正态分布的标准——就像大多数的测验中,总是少有人获得满分或零分,而大多数人集中在中间的平均分数段,在坐标图上构成一个开口向下的曲线——此时的测验便基本令人满意,并可以依照统计结果制定出常模,以供将来的测验进行对照。

常模就像附在测验后的“标准答案”,对照分数后可以推断受测者的分析结果。以明尼苏达多项人格测验为例,它包含有十余个量表,分别与疑病、抑郁、精神分裂等指标相关。受测者根据第一反应选择“是”或“否”,而后进行计分。以“社会内向”这一量表为例,分数越高,则说明受测者的性格可能更为内向、守旧、易紧张。而在“轻躁症”这一量表中,分数高则可能意味着更擅长交际、冲动、乐观等等。

黄端认为,和普通测验不同,心理测验的分数高低与结果优劣并无关联。“我们仅仅告诉受测者,你的人格在某一维度上的表现处于何种位置。一般来说,心理测量不做价值判断——比方说,关于‘求知动机’的测量中仅仅是告诉受测者,是哪种动机促使他求知,但对他们的学习成绩好坏不做判断和评价。”

心理博弈

上世纪30年代,美国国家研究委员会在对霍桑工厂的工人进行管理研究的过程中发现,一旦被测者意识到自己被关注,就很可能下意识地改变事实发展的动向,这就是“霍桑效应”。

而类似的现象也会出现在心理测量的过程中。因此,为了获得更接近真实的测量数据,除了在受测者回答题目的时候,为他们创造平和的环境,在题目的编制上,心理学家也煞费苦心。

“我是一个乐天派”,这是一道测试“情绪稳定性”的题目。但心理学家经过考量,还是决定这样表达:“我不是一个喜欢担忧的人”。表达方式有变,一来显得不单调,二来可以模糊题目的测试目的,使受测者更容易做出真实反应。

下一道题目就和“情绪稳定性”无关了。它可能是“我喜欢诗”或“我喜欢捉弄动物”——这也是问卷的玄机所在。试想,假如下一道题目是“我时常发怒”或“有时我真想摔东西”,受测者联想起上下题,不难猜出测试目的,也就难免影响到答题的选择。

心理测试像是心理学家和受测者的一场博弈。心理学家要明确:“我们想测什么?”难免地,受测者也会揣度:“你想测我什么?”为使受测者最大程度的做出第一反应,并诚实反馈,心理学家不断更新题目的伪装以模糊测试目的,要注意将敏感的问题留待最后以免引起受测者的抵触心理;甚至还要注意措辞,题目读起来要简洁明了,因为人们总是本能地排斥更花费精力的事物。

“这句话是什么意思?”黄端曾在趣味测试的一道题前停顿了一会。“吃桔子吗?吃,把爱人的皮剥了,不吃,爱人把你的皮剥了。吃桔子吗?”选项包括:吃、不吃、逃。他琢磨了一会儿,选择了“逃”。

(感谢中科院心理研究所张建新研究员,北京大学心理系张智丰、侯悠扬,新浪星座频道李鼎新、常涛对此文的帮助)