因為最近搞畢業論文,有點忙,加上還有好多粉絲咨詢,臨近畢業更新就很少瞭。
今天就寫一個非常簡單的文章,敷衍一下吧,哈哈哈。
今天要寫的就是數據清洗的函數mutate(),這個屬於超級基本的內容哦,一般我們拿到數據最頭疼應該就是清洗數據瞭,所以清洗數據的基礎一定要牢牢掌握。
還有,如果你想成為一名合格的分析師,其實你隻要精通清洗數據就夠瞭,我這麼說一點都不誇張。
一個簡單數據清洗任務常常包括:
本文就隻寫最後一個,即在R中使用mutate創建新變量。
在開始之前,我們先談談dplyr。
dplyr是R中專門用於數據處理的包。更具體功能包括:
在大多數情況下,dplyr僅執行這些任務。dplyr出色的部分原因在於它“緊湊”。隻有5或6種主要工具,並且非常易於使用。
使用時,通常你隻需要指定3項內容:
還是給大傢舉個例子:看下圖,mutate()的第一個參數就是數據框,然後就是新變量名=舊變量的某種新式。就是說你可以輕松地以數據框中的原有變量生成新變量。
但是這個函數隻能用於數據框,不能在列表,矩陣,向量或其他數據結構中使用。
註意,mutate()的第二個參數是“名稱-值”對,就是說我們在創建變量時新變量需要一個名稱,但是它也需要一個分配給該名稱的值。因此,當使用mutate時,您需要提供名稱和新值…即名稱/值對。
我們再次看一下剛剛的語法示例:
那麼在上圖中我們是要創建一個名為new_variable的新變量。分配給new_variable的值為existing_var乘以2的值。在此示例中,變量existing_var為原本就存在於數據框df當中的。
就是這麼簡單。
為瞭加深大傢的印象,還是給大傢一個實例
library(dplyr)
library(ISLR)