很長一段時間以來,我都對業界數據分析裡各種術語感到困惑:工作中經常會聽到如“維度”、“粒度”、“尺度”和“口徑”這樣的詞匯,起初,我以為這些都是某些深奧的專業術語,但隨著時間的推移,我意識到其實它們與我們的日常生活關系密切,隻是我們未曾如此系統地去認識它們。
想象一下,我們手中的數據就像一個龐大的商品倉庫,這個倉庫中的每一件商品都是獨特的,我們如何快速準確地找到需要的商品?這時,那些“神秘”的詞匯就像是我們手中的指南針和放大鏡,幫助我們定位和深入觀察。
那麼讓我們從一個數據倉庫出發,開始理解各個術語吧!
維度指的是數據的分類特征或屬性。例如,性別能夠取值為:男/女/其他,我們可以通過性別的取值對人群進行分類,那麼性別就是一種典型的維度;
剛剛的數據倉庫裡的數據,我們可以從不同的角度去進行觀測,觀測的角度即為“維度”:多數情況下,維度的不同取值為我們提供瞭拆分數據的方法。如下圖所示,一個維度存在三種屬性 A / B / C,我們基於該維度對數據進行觀測,就可以把所有的數據記錄分為三類。
3104d5fe25b66d5fd92b9d776b8297ac
通過不同的維度將數據進行拆分,能夠獲取基礎的分類 / 分屬性分佈信息,如果我們同時使用多個維度對數據進行拆分,也就在結構上得到瞭數據透視表(又稱為:數據交叉表、樞紐表、關聯表、相依表)。例如,在分析數據時,我們經常說“按照日期、客戶類別等維度進行透視”,如果日期分為周一到周日的 7 天,客戶類別分為“小型客戶、中型客戶、大型客戶”3種類別,那麼我們或許可以構建一個 7 行 ✕ 3 列的數據透視表:
日期 / 客戶類別 | 小型客戶 | 中型客戶 | 大型客戶 |
---|---|---|---|
周一 | |||
周二 | |||
周三 | |||
周四 | |||
周五 | |||
周六 | |||
周日 |
在電商銷售數據中,一些常見的維度有:
度量是事實表中的數值數據(數字),也就是在維度基礎上衡量對應結果的值;上面的數據透視表,我們按照日期、客戶類別維度進行透視之後,得到瞭表隻有行 / 列標題,填寫在表格主體部分的數值就是度量(或者叫指標)。
指標是一種特殊的度量,通常是“被賦予瞭實際意義”的度量,用來衡量和跟蹤業務或運營績效的數值,在工作中,我們常制定不同的指標幫助我們理解業務表現,如“月銷售額”或“日活躍用戶數”。
日期 / 客戶類別 | 小型客戶 | 中型客戶 | 大型客戶 |
---|---|---|---|
周一 | 度量值 | 度量值 | 度量值 |
周二 | 度量值 | 度量值 | 度量值 |
周三 | 度量值 | 度量值 | 度量值 |
周四 | 度量值 | 度量值 | 度量值 |
周五 | 度量值 | 度量值 | 度量值 |
周六 | 度量值 | 度量值 | 度量值 |
周日 | 度量值 | 度量值 | 度量值 |
剛剛的數據倉庫裡的數據,我們基於維度進行觀測後,在“屬性 A”分類中有多條不同的記錄;我們可以計算出一個屬性 A 的記錄數量,這個“記錄數量”即為屬性 A 的一個度量值,可以填寫在交叉表“屬性 A”的對應位置。
974b2fa6d0c1115e85a51f08177b10b4
粒度也就是“顆粒度”,指數據的 “粗細”,也就是我們看數據的精細程度的大小。粒度關註數據的詳細程度或其分解的大小,通俗地講,粒度關註“分析過程中將什麼范圍內的數據看作一個整體”
時間范圍是常見的粒度。假設你正在分析一名客戶的購物數據,年粒度看的是該客戶一整年的購買情況,月粒度看的是該客戶每個月的購買情況,日粒度看的是該客戶每一天的購買情況。在年粒度情況下,觀測數據時把“一整年”的數據都看作一個整體,月粒度則把“每個月”的數據看作一個整體;根據不同的數據需求制定不同的粒度要求,最終的觀測值也會發生變化。
在下面一個例子裡,有兩個客戶 A、B,我們需要觀測的數據是“A 客戶訂單占比”,日粒度時,每天的觀測數據是不同的,是每天的所有訂單中,A 客戶的訂單占比;而周粒度時,我們在時間維度將這 7 天看成瞭一個整體,隻會觀測到一個數據,即這周的全部訂單中,A 客戶的訂單占比。
粒度 | 日期 / 客戶 / 訂單數 | 客戶A | 客戶B | A 客戶訂單占比 |
---|---|---|---|---|
日粒度 | 周一 | 1 | 0 | 100% |
周二 | 1 | 0 | 100% | |
周三 | 1 | 1 | 50% | |
周四 | 0 | 0 | - | |
周五 | 0 | 1 | 0% | |
周六 | 1 | 0 | 100% | |
周日 | 1 | 1 | 50% | |
周粒度 | 本周 | 5 | 3 | 62.5% |
邏輯范圍也是常見的粒度。剛剛的數據倉庫裡的數據,假設我們更改不同的粒度,會影響記錄的條數變化與度量值的變化;例如之前的數據是“商品粒度”,也就是每條記錄是“一個商品”,一個商品內可能有多個 SKU,假設我們把粒度從“商品粒度”為“SKU 粒度”,那麼新的數據模型裡,每條記錄是“一個 SKU ”,對應的觀測值“記錄數量”也會發生變化
ebe87cfbed421966afc7c448606332a5
當我們在數據分析中提及“尺度”實際上是在談論兩方面的內容:一是數據的度量單位,二是數據的分類與測量標準。
首先,尺度與數據的度量單位密切相關。例如,在分析 GMV 時,我們可能會碰到不同的度量單位:
然而,在數據科學的更廣泛背景下,尺度不僅是一個簡單的度量單位。它實際上是一個系統,用於描述數據的規模、大小和范圍,從而對數據進行更為準確的分類和測量。
數據尺度的幾種主要類型中,定類尺度(也叫做類別尺度或名義尺度),主要用於分類數據。就像給東西貼標簽。例如,男性或女性、中國人或美國人;定序尺度(或稱為等級尺度),能夠表達數據之間的邏輯順序或相對大小。一個常見的例子是 1-10 的滿意度測量表。定距尺度不僅可以分類和排序數據,還可以確定數據之間的確切差距。例如,我們用定距尺度來測量溫度或年齡。定比尺度除瞭具備上述所有特性,這種尺度還可以用來描述數據間的比例關系。比如,A 的收入是 B 的兩倍。
因此,“尺度”其實是每一類數據本身的屬性,數據是分很多“類”的,比如,一條客戶數據裡,可能有“年齡”“品類”等屬於客戶的數據“類”,也可能有“日期”“消費”等屬於數據倉庫的數據“類”,這些不同的數據“類”既有可能是維度,也有可能是度量,每一“類”數據有不同的粒度、尺度;這些數據“類”,統稱為“字段”。
之所以把字段放在後面講,是因為這個屬於“本身蘊含的信息量較少”——度量可以是字段,維度也可以是字段;可以想象,一張表就像是一個大倉庫,裡面擺滿瞭各種貨物。這些貨物就是數據,而每一個貨架上的標簽——告訴我們這是什麼貨物,就是“字段”。字段在數據庫或數據表中儲存信息的單位,你可以把它看作是表中的一列。
例如,表中可能有一個“客戶姓名”的字段,一個“客戶類型”的字段(屬於維度)一個“訂單金額”的字段(屬於度量)。
所以,無論是維度還是度量,它們其實都是不同類型的字段。它們幫助我們理解數據,給數據分類,賦予數據意義。
而整個數據模型中的一切字段、維度、度量、粒度、尺度的定義,統稱為“口徑”。
口徑其實是描述數據來源和計算方法的“規則”。不同的調查或統計方法得到的數據可能會有差異。比如,全國范圍的普查得到的數據,和某個地區的小范圍抽樣調查得到的數據,它們的準確性和覆蓋面是不一樣的。所以,選擇合適的口徑,就是確保數據準確性和可靠性的關鍵。
比如,我們可能有兩種計算GMV的方法:
每種口徑都有它的邏輯和原因,選擇哪一種,取決於我們的需求和目標。
至此,我們探討瞭多個術語名詞及其含義,“維度”、“粒度”、“尺度”和“口徑”四個術語為數據分析的基石,它們在數據的組織、解讀和應用中扮演著不可或缺的角色:
維度為我們提供瞭數據分類的視角,幫助我們按不同屬性進行數據切分和觀察。
粒度則決定瞭我們在數據探索中的深度,使我們能夠根據需要查看數據的不同細節層次。
而尺度關註的是數據的度量單位與測量標準,為數據賦予瞭具體的意義和解讀標準。
口徑確保瞭數據的可靠性和一致性,它描述瞭數據的來源和處理方法,為數據分析結果提供瞭準確性和可信度的保證。
數據分析不僅僅是對數據的技術處理,更重要的是對數據的理解和解釋。隻有深入理解這些核心概念,我們才能夠確保數據的正確性和可靠性,從而提供有價值的洞察和建議。
下一篇