Python爬蟲《使徒行者2》豆瓣短評簡單分析及可視化

2019年8月7日,使徒行者2在中國大陸上映。在此之前,使徒行者1已於2016年上映,相較於使徒行者電視劇(豆瓣8.4),使徒行者1(豆瓣6.8)電影並未獲得與電視劇同樣的高分評價,那麼使徒行者2的評價又會是如何呢?

本次案例通過爬取豆瓣上關於使徒行者2的500條評論,采集的評論字段內容包括,評論者ID,是否看過,評分數,評論點贊數,評論內容,評論時間。基於這些數據,利用Python對相關內容進行可視化。

一、數據采集

利用Python爬蟲技術,爬取電影《使徒行者2》短評500條。內容包括評論者ID,是否看過,評分數,評論點贊數,評論內容,評論時間。

詳細代碼及註釋如下:

二、數據清洗

1.查看數據,需要將”Unnamed:0”這一列刪除

其中評價列中:10-1星(很差),20-2星(較差),30-3星(還行),40-4星(推薦),

50-5星(力薦)

2.查看數據類型

3. 修改標簽名和評論時間格式

4. 觀察是否有異常值

'comment_star’一列用數字代表星級,其中None用0代替,同時轉化為int類型

a91609cf81dd5938bfd5f74f64ced4ff

5.查看前5行數據

三、數據可視化

1.觀察數據

點贊數平均值為55,最大的評論點贊數為3551,下四分數點贊隻有5,顯然隻有少部分人的評論獲得較高的點贊數;

評價星數平均達到3顆星;

2.觀察評論時間的變化趨勢

評論的高峰點主要集中在《使徒行者2》在中國大陸上映的時間點8月7日。

3. 統計看過與沒看過人數占比

評論者皆為為看過該電影的人群。

4.查看評價等級情況

b21ae4f089a5d946308dc0cb7485bb81

其中3星(還行)占比40.4%,4星(推薦)占比29%位列第二,2星()占比18%位列第三,粗略可以看出《使徒行者2》得到的評分比較一般。

5.查看評論點贊數分佈狀況

將點贊數以降序的方式重新排列

plt.plot(np.arange(500),k)

可以看出隻有少部分人獲得點贊數

8b92e67b5dd6530746e34e8d131d3900

明顯地看出,隻有極少部分人的獲得較高的點贊數。

6.挑選點贊數超過100和獲得點贊數的評論分別進行制作詞雲圖,需要生成兩個子集

(1).評論點贊數超過100詞雲圖

(2). 評論點贊數超過0詞雲圖

顯然大部分人評論點贊聚焦於張傢輝,古天樂,港片,吳鎮宇,劇情,情節等字眼,評論者關註評論電影時,從演員與劇情角度出發,可見影帝精湛的演技依舊是吸引關註評論的熱點,而從港片,港式,劇情,套路,老套等字眼中,結合近幾年港片並未出現相對優秀的電影作品,進一步推測出影帝的精湛演技雖為該電影增添瞭光彩,然而港式風格和電影劇情卻並未延續以往港片的熱度。

另一方面,從電視劇字眼中推斷,評論者在評論時喜歡把電影與電視劇做對比。在電視劇8.4豆瓣評分情況下,顯然電影想獲得高分,必須有更多異於電視劇的看點,這也是該電影普遍隻獲得3星評價的原因之一吧。

发表回复

相关推荐

舒傲寒 我們結婚

傲寒民謠很窮,一聽就是一個故事最早知道馬頔(di)是在2015年《中國好聲音》,張磊翻唱瞭一首《南山南》唱火瞭馬頔,那時還...

· 2分钟前

獸醫病理學-6-細胞損傷,壞死,凋亡

一、細胞損傷的原因缺氧,物理因素,化學性因素,生物性因素,營養物質缺乏或不平衡,遺傳變異,負荷失調,免疫功能異常。二...

· 3分钟前

北京冷門小眾博物館--藏在胡同裡的博物館

在北京各大知名的博物館,永遠不會缺少人們的光顧。然而,想要安安靜靜沉浸式感受博物館的魅力,那麼,下面這些冷門而又小眾...

· 5分钟前

CodeGen概述

CodeGen概述 CodeGen是在协同开发环境中工作的软件开发人员可以用来生成源代码的工具。该代码可能是Synergy DBL代码,也可能 ...

· 7分钟前

2020一月大事件回顾

在人生中的清醒时刻,在悲哀及丧失的暗影之下,人们最接近他们的真我。——海明威

· 8分钟前