維度、粒度、尺度、口徑,這些都是啥?——那些數據術語背後

很長一段時間以來,我都對業界數據分析裡各種術語感到困惑:工作中經常會聽到如“維度”、“粒度”、“尺度”和“口徑”這樣的詞匯,起初,我以為這些都是某些深奧的專業術語,但隨著時間的推移,我意識到其實它們與我們的日常生活關系密切,隻是我們未曾如此系統地去認識它們。

想象一下,我們手中的數據就像一個龐大的商品倉庫,這個倉庫中的每一件商品都是獨特的,我們如何快速準確地找到需要的商品?這時,那些“神秘”的詞匯就像是我們手中的指南針和放大鏡,幫助我們定位和深入觀察。

那麼讓我們從一個數據倉庫出發,開始理解各個術語吧!

維度 (Dimension)

維度指的是數據的分類特征或屬性。例如,性別能夠取值為:男/女/其他,我們可以通過性別的取值對人群進行分類,那麼性別就是一種典型的維度;

剛剛的數據倉庫裡的數據,我們可以從不同的角度去進行觀測,觀測的角度即為“維度”:多數情況下,維度的不同取值為我們提供瞭拆分數據的方法。如下圖所示,一個維度存在三種屬性 A / B / C,我們基於該維度對數據進行觀測,就可以把所有的數據記錄分為三類。

3104d5fe25b66d5fd92b9d776b8297ac

通過不同的維度將數據進行拆分,能夠獲取基礎的分類 / 分屬性分佈信息,如果我們同時使用多個維度對數據進行拆分,也就在結構上得到瞭數據透視表(又稱為:數據交叉表、樞紐表、關聯表、相依表)。例如,在分析數據時,我們經常說“按照日期、客戶類別等維度進行透視”,如果日期分為周一到周日的 7 天,客戶類別分為“小型客戶、中型客戶、大型客戶”3種類別,那麼我們或許可以構建一個 7 行 ✕ 3 列的數據透視表:

日期 / 客戶類別 小型客戶 中型客戶 大型客戶
周一
周二
周三
周四
周五
周六
周日

在電商銷售數據中,一些常見的維度有:

  • 顧客維度:顧客的年齡、性別、地區等
  • 賬戶維度:如賬戶創建日期、賬戶類型(普通用戶、VIP 用戶)等
  • 商品維度:商品的類別、品牌和顏色等

度量 (Measure) / 指標 (Metric)

度量是事實表中的數值數據(數字),也就是在維度基礎上衡量對應結果的值;上面的數據透視表,我們按照日期、客戶類別維度進行透視之後,得到瞭表隻有行 / 列標題,填寫在表格主體部分的數值就是度量(或者叫指標)。

指標是一種特殊的度量,通常是“被賦予瞭實際意義”的度量,用來衡量和跟蹤業務或運營績效的數值,在工作中,我們常制定不同的指標幫助我們理解業務表現,如“月銷售額”或“日活躍用戶數”。

日期 / 客戶類別 小型客戶 中型客戶 大型客戶
周一 度量值 度量值 度量值
周二 度量值 度量值 度量值
周三 度量值 度量值 度量值
周四 度量值 度量值 度量值
周五 度量值 度量值 度量值
周六 度量值 度量值 度量值
周日 度量值 度量值 度量值

剛剛的數據倉庫裡的數據,我們基於維度進行觀測後,在“屬性 A”分類中有多條不同的記錄;我們可以計算出一個屬性 A 的記錄數量,這個“記錄數量”即為屬性 A 的一個度量值,可以填寫在交叉表“屬性 A”的對應位置。

974b2fa6d0c1115e85a51f08177b10b4

粒度 (Granularity)

粒度也就是“顆粒度”,指數據的 “粗細”,也就是我們看數據的精細程度的大小。粒度關註數據的詳細程度或其分解的大小,通俗地講,粒度關註“分析過程中將什麼范圍內的數據看作一個整體”

時間范圍是常見的粒度。假設你正在分析一名客戶的購物數據,年粒度看的是該客戶一整年的購買情況,月粒度看的是該客戶每個月的購買情況,日粒度看的是該客戶每一天的購買情況。在年粒度情況下,觀測數據時把“一整年”的數據都看作一個整體,月粒度則把“每個月”的數據看作一個整體;根據不同的數據需求制定不同的粒度要求,最終的觀測值也會發生變化。

在下面一個例子裡,有兩個客戶 A、B,我們需要觀測的數據是“A 客戶訂單占比”,日粒度時,每天的觀測數據是不同的,是每天的所有訂單中,A 客戶的訂單占比;而周粒度時,我們在時間維度將這 7 天看成瞭一個整體,隻會觀測到一個數據,即這周的全部訂單中,A 客戶的訂單占比。

粒度 日期 / 客戶 / 訂單數 客戶A 客戶B A 客戶訂單占比
日粒度 周一 1 0 100%
周二 1 0 100%
周三 1 1 50%
周四 0 0 -
周五 0 1 0%
周六 1 0 100%
周日 1 1 50%
周粒度 本周 5 3 62.5%

邏輯范圍也是常見的粒度。剛剛的數據倉庫裡的數據,假設我們更改不同的粒度,會影響記錄的條數變化與度量值的變化;例如之前的數據是“商品粒度”,也就是每條記錄是“一個商品”,一個商品內可能有多個 SKU,假設我們把粒度從“商品粒度”為“SKU 粒度”,那麼新的數據模型裡,每條記錄是“一個 SKU ”,對應的觀測值“記錄數量”也會發生變化

ebe87cfbed421966afc7c448606332a5

尺度 (Scale)

當我們在數據分析中提及“尺度”實際上是在談論兩方面的內容:一是數據的度量單位,二是數據的分類與測量標準。

首先,尺度與數據的度量單位密切相關。例如,在分析 GMV 時,我們可能會碰到不同的度量單位:

  • 比如“千元”尺度下,10K表示10,000元;
  • 或者在“百萬元”尺度中,1M則代表1,000,000元。

然而,在數據科學的更廣泛背景下,尺度不僅是一個簡單的度量單位。它實際上是一個系統,用於描述數據的規模、大小和范圍,從而對數據進行更為準確的分類和測量。

數據尺度的幾種主要類型中,定類尺度(也叫做類別尺度或名義尺度),主要用於分類數據。就像給東西貼標簽。例如,男性或女性、中國人或美國人;定序尺度(或稱為等級尺度),能夠表達數據之間的邏輯順序或相對大小。一個常見的例子是 1-10 的滿意度測量表。定距尺度不僅可以分類和排序數據,還可以確定數據之間的確切差距。例如,我們用定距尺度來測量溫度或年齡。定比尺度除瞭具備上述所有特性,這種尺度還可以用來描述數據間的比例關系。比如,A 的收入是 B 的兩倍。

因此,“尺度”其實是每一類數據本身的屬性,數據是分很多“類”的,比如,一條客戶數據裡,可能有“年齡”“品類”等屬於客戶的數據“類”,也可能有“日期”“消費”等屬於數據倉庫的數據“類”,這些不同的數據“類”既有可能是維度,也有可能是度量,每一“類”數據有不同的粒度、尺度;這些數據“類”,統稱為“字段”。

字段 (Field)

之所以把字段放在後面講,是因為這個屬於“本身蘊含的信息量較少”——度量可以是字段,維度也可以是字段;可以想象,一張表就像是一個大倉庫,裡面擺滿瞭各種貨物。這些貨物就是數據,而每一個貨架上的標簽——告訴我們這是什麼貨物,就是“字段”。字段在數據庫或數據表中儲存信息的單位,你可以把它看作是表中的一列。

例如,表中可能有一個“客戶姓名”的字段,一個“客戶類型”的字段(屬於維度)一個“訂單金額”的字段(屬於度量)。

所以,無論是維度還是度量,它們其實都是不同類型的字段。它們幫助我們理解數據,給數據分類,賦予數據意義。

而整個數據模型中的一切字段、維度、度量、粒度、尺度的定義,統稱為“口徑”。

口徑 (Caliber)

口徑其實是描述數據來源和計算方法的“規則”。不同的調查或統計方法得到的數據可能會有差異。比如,全國范圍的普查得到的數據,和某個地區的小范圍抽樣調查得到的數據,它們的準確性和覆蓋面是不一樣的。所以,選擇合適的口徑,就是確保數據準確性和可靠性的關鍵。

比如,我們可能有兩種計算GMV的方法:

  • 口徑A:把所有的交易都算進去,不管是否退貨。
  • 口徑B:隻計算那些成功的、沒有退貨的交易。

每種口徑都有它的邏輯和原因,選擇哪一種,取決於我們的需求和目標。

總結

至此,我們探討瞭多個術語名詞及其含義,“維度”、“粒度”、“尺度”和“口徑”四個術語為數據分析的基石,它們在數據的組織、解讀和應用中扮演著不可或缺的角色:

維度為我們提供瞭數據分類的視角,幫助我們按不同屬性進行數據切分和觀察。

粒度則決定瞭我們在數據探索中的深度,使我們能夠根據需要查看數據的不同細節層次。

而尺度關註的是數據的度量單位與測量標準,為數據賦予瞭具體的意義和解讀標準。

口徑確保瞭數據的可靠性和一致性,它描述瞭數據的來源和處理方法,為數據分析結果提供瞭準確性和可信度的保證。

數據分析不僅僅是對數據的技術處理,更重要的是對數據的理解和解釋。隻有深入理解這些核心概念,我們才能夠確保數據的正確性和可靠性,從而提供有價值的洞察和建議。

发表回复

相关推荐

2022年中山市永安中學招生簡章

2022年中山市永安中學招生簡章—、總則招生依據:根據《中山市2022年高中階段學校考試招生工 作方案》(中教體通〔 2022〕84號...

· 6分钟前

常用除草剂注意事项大汇总!

乙草胺 乙草胺内吸性酰胺类除草剂,是选择性芽前除草剂。可被植物幼芽吸收,单子叶植物通过芽鞘吸收,双子叶植物下胚轴吸收 ...

· 8分钟前

股東是否實繳出資如何查詢

如何確認實繳?1.可以去企業所在地工商局網站查詢。2.看章程。3.看看企業銀行的流水。目前一般公司成立時,不需要預先實繳資...

· 14分钟前

筆記本電腦怎麼看參數?小白必看的筆記本參數

如今的筆記本電腦市場,品牌種類繁多,對於一些不懂電腦參數的小白該如何挑選呢?一般萌妹看筆記本電腦時,對於亂七八糟參數...

· 22分钟前

奶嘴,鸭嘴,吸嘴,宝宝哪个阶段喝奶喝水使用指南

关于宝宝到底什么时候戒奶嘴、什么时候应该学习使用吸嘴,不论是国内还是国外都有明确的科学建议:

· 29分钟前