2012年,跟孩子他妈分居的我,正处于人生的第二个低谷。忘了当时是通过什么渠道了解TBBT这部剧的了,但自从看了这部剧,就深深地爱上了它,一直追到了2018年,让我在常年的痛苦之中,也能感到些许快乐。2018年,我遇到了前女友,她陪伴我度过了幸福的两年。而2020年,疫情来了,每周往返北京天津的我,只能在工作和孩子之间作出选择,其实没有选择,只能选择后者。辞职没多久,异地的前女友表示不愿来我所在的城市了,于是第三次人生低谷──失业加失恋的双重打击,就迎面扑来了。失业持续了挺久的,不过工作还是找到了,可失恋就找不回来了。在这种苦闷之中,又刷了一遍TBBT,稍微冲淡了生活的苦涩。这部剧是在2007年9月份开播的,就在我从大学退学后不久,那是我人生的第一个低估,可惜当时跟这部剧还没有缘分。
我打算借着网络上的数据做些分析,再结合一些经典场景的追忆,来写篇东西出来,作为我的“量化回忆”专栏的第一篇文章。数据的话,主要从豆瓣和IMDB等网站获取;工具的话,用的是R语言。我自学了好几年的R语言,但却没能找到可以广泛使用它的工作,但又不想完全放下它,就只好干点这种自娱自乐的事情了。结构方面,分为豆瓣数据分析、IMDB数据分析、台词文本分析和经典场景追忆四大块;内容方面,除了剧集本身的,肯定也会引申到我自己的经历上,在适当的地方,还会加一些心理学视角的分析。
对于豆瓣上的数据,我以季为单位获取了评分、五星率、评分人数、短评数、长评数(本来是叫剧评,但为了跟短评区分开来就叫长评了,但长评其实不一定比短评更长),在此基础上计算了短评数/评分人数的比例以及长评数/评分人数的比例,另外,还采用半手动半自动的方式获取了长评者的评分,以此计算出了各季的均值。该部分数据于2021年1月1日收集。
无论是评分人数、短评人数还是长评人数,基本上都是从第一季开始一直下降,直到最后一季又有了一定的上升。略有不同的是,评分人数在第十季达到下限,短评人数在第九季数量最低,而长评人数最少则出现在第八季。长评人数的曲线是比较对称的,第二季到第十一季的长评人数都在100左右,而第一季和最后一季的长评人数均超过了300。(折线图和柱形图的颜色用的都是2021年潘通色:亮丽黄,但用在这里感觉也不是很好看)
除人数外,还计算了短评人数和长评人数分别与评分人数的比率,从短评/评分人数比率来看,前十一季的评分者中有10%-20%愿意写下短评,在最后一季中,这一比例则达到了三成以上。长评/评分人数比例方面,从第九季开始出现了较为明显的上升,到最后一季的时候,几乎每200个评分者就有一位愿意写下长评。
最后是评分,除了表面的那个评分之外,我还以五星率以及长评评分者的平均分作为衡量评分的指标。我觉得愿意写长评的应该都是比较资深的观众,他们的评分应该更具有代表性。在爬这部分数据时,我是手动加自动完成的,因为各季的网址之间没有规律可循,我只能一季一季的爬(爬完才意识到,我可以模拟登录,自然也可以模拟搜索操作啊,我为啥要一季一季的爬啊?)。另外,很多长评会被折叠,所以实际用到的数据都比第一张图里显示的少,但最少的也超过30个了,从样本量上来看应该还可以。
从普通的评分来看,所有十二季全都超过了9分,最高的9.6分,最低的9.1分,区分度不高。然后我用了五星率,这个就能明显的显示出优劣了。从这个指标来看,第六季的评价最差,五星率仅有60%多,而最后一季的五星率则超过了85%。最后是长评者评分,四五六三季都不太受欢迎,只有8.5分左右,而第十季和最后一季最受欢迎,都达到了9.7分。第十季能和最后一季并列最高分的原因,大概是因为结局Sheldon的告白吧。
IMDB上的评分是以集为单位的,各集有各集的评论,没有短评长评之分。另外,IMDB上的数据比豆瓣上的好爬一些,至少不需要模拟登录(爬豆瓣我用的RSelenium,而爬IMDB我用的Rvest。记得以前豆瓣不登录是看不到短评之类的,但现在好像可以了,是不是就不需要模拟登录了呢?)。该部分数据于2021年1月2日收集。
针对各集的评分人数和评分做了热力图。就人数来看,这部剧似乎没有我想象得那么火。给整部剧打分的有70多万人,大概是《权力的游戏》打分人数的40%,但后者单集评分者都是几万人,最后一集甚至有20多万人评分,两者在这方面的差距很大,大概情景喜剧的方方面面并没有太多可以评说的。评分人数最多的是最后一集,有7000多人,最少的也发生在最后一季,只有1500多人。第九季第十一集有些鹤立鸡群,那一集几位主角准备去看新的《星球大战》首映而同时Sheldon和Amy发生了第一次。
评分方面,最大值也是出现在最后一集。前七季大部分都在8分以上,而后五季大多数都在8分以下。我在重温的时候,到了后几季也觉得有些乏味了。不知道这是心理因素在作祟,还是剧的质量确实下降了?第九季第十一集在评分上依然鹤立鸡群,这也很正常,毕竟评分与评分人数之间的相关达到了0.795(豆瓣的这一数值是0.411,因为是以季为单位,只有12个样本)。
我把top 10和bottom 10挑了出来。因为有排名并列的情况,所以前十共有12集而后十共有16集。
最后一集以较大的优势占据了评分第一的宝座,紧跟其后的是倒数第二集。这两集是整个TBBT中少有的前后关联的两集。在这最后两集里,Sheldon遇到了最后一次“感情”危机,然后以一段完美的获奖感言解决了它,同时为整部剧划上了一个完满的句号。第二季第十一集以9.2分并列第二位,在这一集里Sheldon得到了这辈子最好的一份礼物(后面还会提到这个)。有两集以9.1分并列第四,分别是第九季第十一集(前面已提到)和第三季第二十二集,后面这集回溯了几位主角的过去,特别是Sheldon救了Leonard一命的事。
共有3集以6.8分并列最差。第十二季第五集中,Sheldon自以为是地把Amy踢出了她自己的项目;第十季第二十二集中,Penny考虑为前男友Zack打工;第九季第一集中,Sheldon和Leonard都面对了感情危机。这三集要么是过于冒犯人,要么是过于平庸且偏离应有的特色,因此遭到了很大程度的差评。第十一季第十七集也没有达到7分,Howard和Bernadette在讨论谁该辞职带娃。这个剧情是不是设计得太平庸了,不应该出现在这个类型的剧中?
台词是从big bang theory transcripts网站上爬取的,只有前10季的。各集的url都是季数、集数和集名组成的,看起来很简单,感觉几十分钟就能解决,但实际上却花了我好几个小时,甚至超过了手动复制所需要的时间。在爬取的时候遇到两个问题,一是10以下的数字,有时用‘X’的形式表示,有时用‘0X’的形式表示;二是集数、季数和单词拼写经常是错误的,有时候单词没有拼错,但拼法不一致(如有些单词里用z或s均可)。前面那个问题很好解决,后面我就不知道该怎么办了,往往刚爬了几集,就不得不停下来检查一下,url到底哪里又错了。
不管怎么说,总算还是收集到了。关于台词,可以探索的内容就比较多了。可以看看谁的台词最多,谁在台词里被提及的最多;可以看看某角色的出场比例(或出场与否)和评分之间的关系;可以看看整体上、各季和各角色的所使用词汇的词频以及各季和各角色所用词汇的tf-idf、感情色彩等情况。由于时间原因,我没有做太过细致的数据清洗,所以有些数据可能和真实值略有差异。
无论是谈话发起者数量还是在谈话中被提及的数量,Sheldon都以绝对的优势占据第一位(虽然演员顺序始终是第二位)。我没有统计每个人的单词数量,如果统计的话,Sheldon的优势可能会更明显。后面三位在两张表里也是一致的,分别是Leonard、Penny和Howard。作为谈话的发起者,Raj的次数多于Amy;但作为被提及者,Amy的次数多于Raj。Bernadette则在两个指标下都是七个常驻角色中最低的。
我用每个角色在每一集中作为谈话者的比例,和该集的评分之间求了相关。可以看到,虽然有正有负,但强度都不高。Penny的相关系数最高,她作为谈话者的比例越高,则该集的评分就可能越高。相关系数最低的是Raj,IMDB上的评分者在评分时似乎并不会考虑政治正确的问题。Poor Raj!
次要角色由于出场次数较少就不适合算相关了,我把他们各自出场的集数算了平均评分。得分最高的是Leslie,不知道是因为她是在前期出场的而那时各集的评分普遍较高,还是因为观众确实喜欢看她怼Sheldon。得分最低的是Emily,这个角色也是个怪人,但她的怪不是那种有趣的怪。我觉得她应该是有机会进入常驻角色的,有段时间她似乎都不会出现在片后的客串演员名单中了(然而我并没有刻意去关注片前的演员名单中有没有她)。
统计了前十季剧本词汇的词频,没有针对词汇做太多的处理,仅去掉了我所用的tidytext包自带的停用词,所以还是有很多没什么意义的词。但从中还是可以看到诸如time、love、feel、和life等比较重要的词汇。
把词频按季进行了分面,同样,还是没有太多的意义。
然后又按角色进行了分面,这次能看到一两个跟角色比较相关的词汇了,如Howard的space,Penny的(oh my) god,以及Sheldon最具代表性的knock。
之所以没对词汇进行细致的清洗,除了没那么多时间,还因为有tf-idf算法可以用。这个算法我最早是在《Text Mining with R》中了解到的,前一阵子在吴军博士的《数学之美(第3版)》也看到了这个算法,说它是信息检索中最重要的发明(P107)。这个算法计算起来挺简单的,我这个连高中数学水平都达不到的人也可以弄明白如何去计算。其作用嘛,我觉得就是可以让一些具有代表性的词汇从茫茫词海中突显出来。
使用这个算法之后,各季的词汇就没有那么多无意义的了。不过,TBBT这个剧的各季之间也没有特别具有区分度的主题(各集和各集之间可能有),所以呈现出来的词汇也不是很具有代表性。
用在各个角色上就好多了。看到Amy的bestie,Bernadette的howie,Howard的ma,Penny的sweetie等时,情境就自动地浮现在眼前了。Leonard似乎没有特别鲜明的词汇,而Raj的oontz是什么东西?完全没有印象。不过,最意外的还是Sheldon,他最有代表性的词汇竟然不是bazinga!
最后做了下情感分析,用的Bing Liu的词汇库,这个词汇库把情感词汇赋予了积极或消极的色彩,我在此基础上,使用 frac{积极词汇数量-消极词汇数量}{积极词汇数量+消极词汇数量} 算出了一个值作为情感分数(我不知道这么算是否合理,但由于各角色的总词汇量差距太大,单纯以数量呈现似乎不太公平)。毕竟是情景喜剧,各季都没有出现负值,其中8、9、10三季十分接近,是情感分数最高的。
角色的情感分数让我有些意外,Stuart竟然是最高的!明明应该是最消极的一个,大概是因为我没有处理否定前缀吧。像“I’m not fine”这种我还是可以处理的,但像“I don’t think I’m fine”这种我就不知道该怎么弄了,所以就完全没有处理。最低的是Sheldon,这个应该还算合理,毕竟首先他也不是个特别乐观的人,其次还经常陷入各种问题之中。
最后是各集的情感分数。作为一个情景喜剧,绝大多数集的分数都是正的,其中最高的是第九季第四集,这集里Sheldon把公寓弄回了2003年的样子,而Howard和Raj正在为他们的新歌排练;最低的是第一季第十集,这一集中Sheldon因为要撒谎而陷入了困境之中,跟撒谎相关的词应该都是比较偏负面的。
该部分的分析到此结束。如果将来有时间的话,希望能把台词找全,并把整个文本都校正一下,以便得出更精确的结果。
经典场景有很多,但我决定只为七位主角加上Stuart八人各选一个我所认为最具有代表性的场景来进行描述。
2-11:Penny和拥抱。
讨厌送礼收礼的Sheldon,在圣诞节那一天收到了令他激动得面目狰狞的好礼物──沾有Leonard Nimoy唾液的纸巾,出于对此人的喜爱,Sheldon甚至以他的名字命名了自己的儿子(大概在YS4-1片尾提到过)。在觉察到自己所准备的十份礼物并不足以进行等价回馈时,厌恶与他人有肢体接触的他给与了Penny一个大大的拥抱,进而给我们呈现出了整个TBBT中最经典的一段剧情。
作为主角中唯一一个bully的施加者而非承受者,Penny的成长环境相对“健康”。我觉得她与Sheldon之间是心理上相对成熟、坚强的人与一个心理上绝对幼稚、脆弱的人之间所形成的一种类似于母子关系的关系。在TBBT末期,衍生剧YS开始播放时,我觉得她甚至有些像Mary了,一个没有强烈宗教信仰的Mary。
Penny和Leonard最终能在一起,很多因素在起作用,让我按著《亲密关系(第6版)》的相关内容梳理一下。首先是地理空间上的临近,使他们有很多机会接触,进而产生了纯粹曝光效应;其次是Penny长得很漂亮,按设定来说,身材也是一直很棒的,对Leonard有很强的吸引力,让Leonard非常喜欢,而人们通常又会喜欢那些喜欢自己的人(当然也会有例外,比如像Howard那么猥琐的人,哈哈);最后是相似性,乍一看,Penny和Leonard之间没有太多的相似性,但和这群nerd相处久了之后,Penny或多或少都有一定程度的同化了,至少相似性要比她之前的男朋友们(如Zack)要高了。
我和前女友是硕士同学,有很高的相似性,在一起的时候也一直都很开心,从来都没有吵过架。如果我与她不是相隔了一千公里,恐怕不会是这个结局吧?
3-1:Leonard和雪花。
四人组从北极归来后,Leonard送给Penny一片来自北极的雪花。感情作为一种物质,其物理性质和化学性质似乎都不太稳定,有时仅仅会因蒸发或升华而消失,有时又会转化为厌恶、憎恨等其他感情。永不变质的爱情,太难得了。
Leonard的一生,都是作为其母亲的实验被试而存在的。有一集说到他的夏令营帐篷上写的是“Control Group”,看到这里真是觉得又好笑又可悲。他的成就其实很高,但却始终得不到母亲的认同,越是得不到的东西,我们就越想得到,这也成了Leonard的心魔。“人家心中想给你,你不用球,人家自然会给你;人家不肯的,你便苦苦哀求也是无用,反而惹得人家讨厌。”(引自金庸的《侠客行》)。Leonard想得到但得不到的感情,却被Sheldon轻而易举地得到了。最后Leonard跟母亲和解了,我看不出来这一段的逻辑,感觉太牵强了,以德报怨,何以报德啊!学学马男波杰克吧!
Sheldon特别讨厌变化,我也是这样。我把自己对她的感情雪花装了起来,不想让它发生变化,可她的感情雪花却已经融化了。
6-24:Raj和障碍。
非饮酒状态下无法在有女性在场的空间内说话的Raj,在一次痛苦的失恋后,终于摆脱了这个严重的心理疾病。
作为富二代的Raj怎么会得上这么一种怪病呢?剧中好像没有给出原因,我也看不出原因来。Raj和Howard之间的感情是剧中的一大看点,如果没有Bernadette的出现,这俩最终会不会在一起呢?八九不离十吧,毕竟最后Raj为了友谊都放弃爱情了。Raj是一个很女性化(传统意义上)的角色,高共情、感情丰富,同时还是个生活达人。现实中我认识两个像Raj这样的人,一个似乎一直都是单身(大概是自己把自己照顾得太好了,不需要别人了),一个频繁更换女朋友,但始终没有找到能相伴终身的。
我很少喝酒,但最近却总想着要喝一点酒(还没去实行)。Raj的角色本身可能也是一种隐喻,即有的人可能只有借助酒精,才能把一些想说的话表达出来。
7-6:Bernadette和歌曲。
病毒泄露,Bernadette被隔离了。Howard拉着“合唱队”为她献上了这动人的一曲,来纪念他们的第一次约会。
作为多子女家庭的头胎,Bernadette在职场上极为强势,作为员工的话,我可不希望自己遇上这样的BOSS。但在家里,Bernadette却是很贤惠,很多细节都表明,她是既当老婆又当妈的。身为公司高管,同时还要照顾家里的两个小孩和一个大孩,实在是太不容易了。无条件的积极关注是人本主义的心理咨询者对待来访者的态度,但用在感情中,也是非常合适的。包容对方的傻、支持对方的梦,大概就是最好的感情状态吧。Howard,你何德何能,找到这么好的老婆?
我曾经也拥有这样的感情,大概就是因为这种感情实在太美好了,所以失去后才特别难过。
7-18:Stuart和约定。
大伙约定三十年(还是二十年?)后同一地点再聚首,只有当时没有智能手机的Stuart在三十年后还记得这个事。
与七位成长性需求(爱与归属、尊重及自我实现)基本上都得到满足的主角不同,Stuart始终在为满足缺失性需求(生理、安全)而努力。由于身患多种心理疾病,还要大量用药,能再活三十年也是难为他了。根植于其名字之中的艺术追求,最终向现实低了头。虽然偶尔为了生计作出一些奸商行为,但整体上他还是很靠谱的,甚至在生活上还能和Raj成为势均力敌地竞争对手。大概是看他太可怜了吧,编剧最后给他安排了一个志同道合的女朋友。
我们之间也有过很多约定,但最后我也是什么都没有等来。
10-24:Sheldon和求婚。
这个结果是可以预料到的,但是通向结果的路则完全没有料到。那个可怜的博士后,“明明深爱着你,却为你所爱的人做了僚机”。
Sheldon的智商接近+6个标准差(189吧,我记得是),按概率来看,他在100000000人中能超越了99999999人,也就是亿里挑一的人。智商和情商一般来说是呈正相关的,智商越高,情商也会越高,但为了喜剧效果,编剧给这个天才安排了一个极低的情商。他的社会性能力从某个年龄开始可能就没有再提升过,比如道德方面,他始终停留在科尔伯格所提出的道德理论的第三阶段,处于这个阶段的人特别重视社会规范和秩序。最重要的是,他基本上没有发展出共情,体会不到他人的感受。这在后期有了一定地改观,但也没达到普通人的水平。当Amy离他很远的时候,他终于体会到了她对他来说是多么重要。
与Sheldon不同,我最后一次跨越一千公里去找她,得到的却是“你自己找个酒店住下,然后明天就回家吧。”哈哈。
12-6:Howard和变装。
最后一季的万圣节,Howard扮成了Sheldon,动作、声调无不惟妙惟肖,而极度自我中心的Sheldon,却完全没有感觉出来Howard在扮演自己。这可能不太合逻辑,毕竟Sheldon也不可能不照镜子,但喜剧效果确实十分拔群。这段剧情应该是整部剧中让我笑得最厉害的一段了,后来Sheldon和Amy扮成了Howard和Bernadette,感觉就没有那么好笑了。大概只有最具“模仿”天赋的人去扮演最具“个性”的人,才会有那么好的效果。
Howard是主角中除Penny外学历最低的一个,经常因为学历被Sheldon嘲笑,但同时又是最多才多艺的一个,会多国语言、会表演魔术、会玩音乐、会模仿秀。他为人极其猥琐,五短身材,言语刻薄,胆小怕事,还是个妈宝,但却遇到了一个完美的伴侣,实在是让人“心酸”。由于摊上一个不负责的父亲,Howard对为人父感到了极大的恐惧。看他的表现,确实也不是一个特别称职的父亲,好在身边有一个称职的母亲和几个称职的朋友。印象中有一集Howard去找他爸,然后看到他爸成了跳钢管舞的变性人,但在重刷的时候没有看到。是我看漏了,还是我的记忆错乱了?
作一个称职的父亲确实是一个很困难的事情,我工作几年之后又去考了个教育学硕士,恐怕就是我潜意识里对自己可能会成为不称职的父亲的恐惧。
12-18:Amy和控诉。
冒名顶替综合症(Impostor Syndrome)指个体对自己的才能和成就有所怀疑并总是处在一种害怕自己被揭露为骗子(fraud)的恐惧中,然而Amy和Sheldon所遇到的却是字面上的冒名顶替者。与所有人预料的相反,Amy,而不是Sheldon向骗子们作出了愤怒的控诉。这一段剧情看得太痛快了,Amy替多少人喊出了他们喊不出口或者即便喊出口也没人能听见的声音。最近看到一句话,叫“无罪之人不断自责,有罪之人心安理得”,通过欺骗得来的“成功”,岂是一两句虚伪的道歉可以掩饰的?
与其他主角不同,Amy的人设有过较大程度的调整,甚至连她母亲的扮演者都进行了更换。这个调整,我觉得不是很合理,作为一个同时受外力束缚和自身社交能力不足而没有太多社交经历的人来说,Amy显得太过于“正常”了,但这种正常化可能是由于在结交了许多朋友之后,极重感情的她的身上所带有的那种为他人付出的精神终于有处安放了。我一开始很不喜欢这个角色,特别是看到她和Sheldon有亲密接触就感觉挺恶心的,但后来慢慢觉得,也就只有她才能配得上Sheldon。
找到完美的伴侣是很难的,有个借助“费米定律”的知乎回答就探讨了这一问题,而错过了一个的前提下再找到一个,恐怕就更难了。
本文至此结束。看完TBBT,接着重刷了《马男波杰克》,这个片子更符合目前的心境,下一个剧集方面的量化回忆就是它吧。