2019年8月7日,使徒行者2在中國大陸上映。在此之前,使徒行者1已於2016年上映,相較於使徒行者電視劇(豆瓣8.4),使徒行者1(豆瓣6.8)電影並未獲得與電視劇同樣的高分評價,那麼使徒行者2的評價又會是如何呢?
本次案例通過爬取豆瓣上關於使徒行者2的500條評論,采集的評論字段內容包括,評論者ID,是否看過,評分數,評論點贊數,評論內容,評論時間。基於這些數據,利用Python對相關內容進行可視化。
一、數據采集
利用Python爬蟲技術,爬取電影《使徒行者2》短評500條。內容包括評論者ID,是否看過,評分數,評論點贊數,評論內容,評論時間。
詳細代碼及註釋如下:
二、數據清洗
1.查看數據,需要將”Unnamed:0”這一列刪除
其中評價列中:10-1星(很差),20-2星(較差),30-3星(還行),40-4星(推薦),
50-5星(力薦)
2.查看數據類型
3. 修改標簽名和評論時間格式
4. 觀察是否有異常值
'comment_star’一列用數字代表星級,其中None用0代替,同時轉化為int類型
a91609cf81dd5938bfd5f74f64ced4ff
5.查看前5行數據
三、數據可視化
1.觀察數據
點贊數平均值為55,最大的評論點贊數為3551,下四分數點贊隻有5,顯然隻有少部分人的評論獲得較高的點贊數;
評價星數平均達到3顆星;
2.觀察評論時間的變化趨勢
評論的高峰點主要集中在《使徒行者2》在中國大陸上映的時間點8月7日。
3. 統計看過與沒看過人數占比
評論者皆為為看過該電影的人群。
4.查看評價等級情況
b21ae4f089a5d946308dc0cb7485bb81
其中3星(還行)占比40.4%,4星(推薦)占比29%位列第二,2星()占比18%位列第三,粗略可以看出《使徒行者2》得到的評分比較一般。
5.查看評論點贊數分佈狀況
將點贊數以降序的方式重新排列
plt.plot(np.arange(500),k)
可以看出隻有少部分人獲得點贊數
8b92e67b5dd6530746e34e8d131d3900
明顯地看出,隻有極少部分人的獲得較高的點贊數。
6.挑選點贊數超過100和獲得點贊數的評論分別進行制作詞雲圖,需要生成兩個子集
(1).評論點贊數超過100詞雲圖
(2). 評論點贊數超過0詞雲圖
顯然大部分人評論點贊聚焦於張傢輝,古天樂,港片,吳鎮宇,劇情,情節等字眼,評論者關註評論電影時,從演員與劇情角度出發,可見影帝精湛的演技依舊是吸引關註評論的熱點,而從港片,港式,劇情,套路,老套等字眼中,結合近幾年港片並未出現相對優秀的電影作品,進一步推測出影帝的精湛演技雖為該電影增添瞭光彩,然而港式風格和電影劇情卻並未延續以往港片的熱度。
另一方面,從電視劇字眼中推斷,評論者在評論時喜歡把電影與電視劇做對比。在電視劇8.4豆瓣評分情況下,顯然電影想獲得高分,必須有更多異於電視劇的看點,這也是該電影普遍隻獲得3星評價的原因之一吧。